专利 一种基于模态观察和评分的多模态情感分析方法和装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211442584.9 (22)申请日 2022.11.18 (71)申请人之江实验室地址 311100 浙江省杭州市余杭区中泰街道之江实验室南湖总部 (72)发明人廖龙飞　黄刚　华炜　韩佳易　周舟　李永福　 (74)专利代理机构杭州浙科专利事务所(普通合伙) 33213 专利代理师孙孟辉 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/126(2020.01) G06F 40/242(2020.01) G06K 9/62(2022.01)G06Q 50/00(2012.01) (54)发明名称一种基于模态观察和评分的多模态情感分析方法和装置 (57)摘要本发明公开一种基于模态观察和评分的多模态情感分析方法和装置，该方法包括：步骤一，获取不同模态原始数据，针对不同模态特点提取模态特征表示；步骤二，使用模态观察模块对各模态信息进行初步融合，获得模态融合权重和模态学习权重；步骤三，基于模态融合权重和单模态特征表示，构建多模态特征表示和多模态代理特征表示；步骤四，使用模态评分模块对多模态特征表示和多模态代理特征表示进行情感打分，结合模态学习权重，基于多任务学习框架完成情感分析模型的训练。本发明不仅能够完成多模态情感分析任务，也能够完成各个单模态情感分析任务，能够做到一次训练、多处使用，从而减轻训练负担，大大提升使用效率和多模态情感分析效果。权利要求书3页说明书7页附图2页 CN 115496077 A 2022.12.20 CN 115496077 A 1.一种基于模态观察和评分的多模态情感分析方法，其特征在于，包括以下步骤：步骤一，获取不同模态原始数据，针对不同模态特点提取模态特征表示；步骤二，使用模态观察模块对各模态信息进行初步融合，获得模态融合权重和模态学习权重；步骤三，基于模态融合权重和单模态特征表示，构建多模态特征表示和多模态代理特征表示；步骤四，使用模态评分模块对多模态特征表示和多模态代理特征表示进行情感打分，结合模态学习权重，基于多任务学习框架完成情感分析模型的训练。 2.如权利要求1所述的一种基于模态观察和评分的多模态情感分析方法，其特征在于，所述步骤一具体包括以下子步骤：步骤1.1，采集现有的带有情感标记的多模态数据集，具体为：截取影音片段，通过剪辑分离出片段数据中的文本模态数据、视觉模态数据和语音模态数据，并进行人工情感标注，标注出对应的对应的文本模态情感标签、视觉模态情感标签、语音模态情感标签，以及多模态情感标签；步骤1.2，根据不同模态的数据特点，提取各模态数据的特征表示。 3.如权利要求2所述的一种基于模态观察和评分的多模态情感分析方法，其特征在于，所述步骤1.2具体为：对于文本模态数据，首先通过字典对文本字符进行编码，并添加特殊字符[cls]和 [sep]；然后通过预训练好的BERT模型得到词向量序列，其中表示特殊字符[cls ]的词向量，表示第i个词向量，表示特殊字符[sep]的词向量，以作为初始文本模态特征表示，通过一个三层神经网络 Ft得到文本模态特征表示；对于视觉模态数据，首先把视频转换成图像帧集合，通过人脸检测技术得到人脸图像集合；再使用OpenFace提取每张人脸图像的特征向量，得到人脸特征序列，其中代表第i个人脸特征向量，对人脸特征序列求均值得到初始视觉模态特征表示，通过一个三层神经网络 Fv得到视觉模态特征表示；对于语音模态数据，通过Python库librosa提取过零率、梅尔倒谱系数、 CQT色谱图，得到语音特征序列，其中表示对应时间权　利　要　求　书 1/3 页 2 CN 115496077 A 2步的语音特征，对语音特征序列求均值得到初始语音模态特征表示，通过一个三层神经网络 Fa得到语音模态特征表示。 4.如权利要求3所述的一种基于模态观察和评分的多模态情感分析方法，其特征在于，所述步骤二具体包括以下子步骤：步骤2.1，将文本模态特征表示、视觉模态特征表示、语音模态特征表示，通过拼接得到初步模态融合表征；步骤2.2，把初步模态融合特征表示通过一个前馈神经网络得到模态权重观察向量，其中表示对应单模态观察分数，具体表达式如下：，其中和是模态观察模块可学习参数；再通过模态观察分数，计算模态融合权重，表达式为：，其中范围在0到1之间，越大表示模态在模态融合中贡献越大；在模态融合权重基础上进行模态学习权重的计算，具体是通过在1个批次的训练数据中对每个样本做加权平均，然后通过指数函数求得，表达式为：，其中代表在训练数据的批次大小。 5.如权利要求4所述的一种基于模态观察和评分的多模态情感分析方法，其特征在于，所述步骤三具体包括以下子步骤：步骤3.1，通过文本模态特征表示、视觉模态特征表示、语音模态特征表示，结合文本模态融合权重、视觉模态融合权重、语音模态融合权重，得到多模态特征表示表达式为：；步骤3.2，引入三个零向量分别作为文本代理特征表示、语音代理特征表示和视觉代理特征表示，其维度与文本模态特征表示、视觉模态特征表示、语音模态特征表示权　利　要　求　书 2/3 页 3 CN 115496077 A 3

专利 一种基于模态观察和评分的多模态情感分析方法和装置

专利一种基于模态观察和评分的多模态情感分析方法和装置