本研究提出一种可解释的情感身体表达识别框架,将多尺度时空编码与基于大语言模型的推理相结合。该框架使用 MSCMNet 跨尺度编码身体运动模式,通过双向状态空间建模捕获时间依赖关系,并利用情绪-动作解释器生成可读解释。时空语义理解模块和跨数据集联合训练进一步提升模型泛化能力。实验结果表明,该方法最高可带来 7.83% 的准确率提升,并相比 GPT-4o、Gemini 1.5 Pro 等通用多模态大模型表现出更强的可解释推理能力。
关于本文的更多详情,请访问此链接。