近日,国际顶级多媒体会议ACM Multimedia (ACM MM) 2024公布了最佳论文提名名单,人工智能学院梁雪峰教授团队发表的论文《Leveraging Knowledge of Modality Experts for Incomplete Multimodal Learning》荣获本届会议的最佳论文提名(Best Paper Nomination),由其指导的硕士生江河欣和硕士生许文鑫为共同第一作者,梁雪峰教授为通讯作者。据悉,会议共有4385篇投稿进入审稿阶段,最终1149篇论文被录用(录用率26.20%),录用论文中共有26篇论文被提名ACM MM 2024最佳论文。
ACM MM是国际多媒体领域学术和产业界交流的顶级盛会,也是中国计算机学会(CCF)推荐的多媒体领域唯一的A类国际学术会议,H5指数101。ACM MM涵盖了多媒体研究的所有领域,包括各种媒体模式,解决技术和实际挑战。
论文中表示,受人多感官感知信息启发设计的多模态情感识别方法已在人机交互、对话系统和社交媒体分析等领域展现了充分的应用价值。传统的多模态情感识别模型在实际应用中由于传感器损坏或隐私保护等原因导致部分模态缺失或不可用时,性能下降明显。现有的解决方法侧重于学习跨模态的一致的联合表征以提升模型在模态不完备场景下的表现。然而,本论文发现,这类方法忽视了对含有模态特定知识的单模态表征的学习,在只有一个模态可用的严重模态不完备场景下依然表现不佳。
对此,作者首次定义了模态不完备场景下的单模态和联合联合表示,并提出了混合模态知识专家(MoMKE)新框架去同时学习它们。该框架采用两阶段训练设置,在单模态专家训练阶段,通过各模态对应的数据训练得到模态知识专家,在专家混合训练阶段,通过利用所有模态专家的知识,学习模态不完备场景下的单模态和联合表征。作者还设计了一个软路由模块,通过动态融合各个表征来进一步丰富模态表征。在三个基准数据集的各个模态不完备场景的实验上,MoMKE显著超过了先前最好的方法,在严重模态不完备场景下的提升尤其明显。论文的消融实验和可视化分析进一步揭示了模态缺失场景下单模态表征和联合表征各自的作用。MoMKE为不完备多模态学习提供了一个新的视角,并为设计真实场景中鲁棒的多模态应用提供了坚实的基础。
教授简介:
梁雪峰,西安电子科技大学华山特聘教授,省部级人才,日本京都府知事奖获得者。主要研究方向包括多模态情感分析(用于对话情感感知、视频吸引力分析、心理健康检测和干预等)以及面向大模型的基础算法研究(视觉+文字模式挖掘算法,噪声标签学习,顺序学习等)。