【发布时间:2024-08-01 阅读次数:157 内容来源:】
近日,学会理事长单位四川电信与北京邮电大学张平院士、陶小峰教授团队合作的一项多模态大语言模型相关成果被计算机视觉国际顶级会议CVPR接收。CVPR是国际上备受瞩目的计算机视觉和模式识别领域的顶级会议,由电气电子工程师学会(IEEE)举办,并被中国计算机学会(CCF)推荐为A类会议。本研究工作构建了一个面向多模态大型语言模型的视频异常事件检测数据集——CUVA。与现有的数据集相比,CUVA不仅规模更大,而且更加全面地覆盖了各种应用场景,能够满足不同用户群体的需求。它提供了丰富且高质量的数据标注,这使得CUVA成为了进行各种下游任务的理想选择,比如异常检测、异常预测、异常推理等。为了更好地评估视频大模型在处理复杂场景下的表现,本研究还提出了一种新的测试基准MMEval。MMEval旨在全面衡量视频大模型的因果推理能力,这对于提高模型在现实世界中的实用性和准确性至关重要。在模型方面,研究团队开发了一种创新的微调方法,该方法将软提示(Soft Prompt)与硬提示(Hard Prompt)相结合,用于视频多模态大模型。这种方法能够有效地提取视频中的关键信息片段,从而显著增强了模型对视频内容的理解能力。通过这种技术手段,不仅能够在一定程度上缓解视频大模型存在的“幻觉”问题,还能够广泛应用于几乎所有的多模态开源大模型中,比如Video-ChatGPT、Video-LLaMA等,实验证明这种方法可以将这些模型的异常事件理解性能平均提升15%以上。
图 1 视频异常的因果关系解释
图2 重要性曲线生成方法
所有研究成果,包括论文、代码和数据集,都已经对外公开。
论文链接: https://arxiv.org/pdf/2405.00181
代码及数据集: https://github.com/fesvhtr/CUVA
除此之外,CUVA数据集和MMEval测试基准也展现了在其他公共安全领域的广泛应用潜力,例如:智能安防:通过实时监测异常行为,提高公共场所的安全性;智能交通系统:通过事故预警和违规行为提醒,减少交通事故的发生;工业制造环境:通过生产线上的产品和工艺异常检测,提高生产效率和产品质量。