iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211194469.4 (22)申请日 2022.09.28 (71)申请人 淮阴工学院 地址 223000 江苏省淮安市经济技 术开发 区枚乘东路1号 (72)发明人 胡荣林 张新新 张亚光 邵逸达  冯万利 张海艳 肖绍章 朱全银  强豪 王忆雯  (74)专利代理 机构 淮安市科文知识产权事务所 32223 专利代理师 吴晶晶 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01)G06F 40/49(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于多交互信息融合的图像描述方法 (57)摘要 本发明涉及计算机视觉与自然语言处理领 域, 公开了一种基于多交互信息融合的图像描述 方法, 采用目标检测模型提取预处理后训练集的 图像显著区域特征, 然后使用多视觉语义信息交 互模块进行编码显著区域特征得到多层增强图 像融合特征, 通过对多层增强图像融合特征进行 平均池化生成全局图像融合特征; 利用多模态交 互信息网络挖掘全局图像融合特征与文本语义 信息间的关系, 从而得到该时间步上下文信息; 再经语义解码的线性单元解码上下文信息生成 输出单词序列的概率分布。 与现有技术相比, 本 发明能够充分捕获图像视觉信息间的交互信息 以及图像视觉信息与文本语义信息间交互信息 的多种互补信息, 实现对图像语义更加全面的理 解。 权利要求书3页 说明书7页 附图2页 CN 115512195 A 2022.12.23 CN 115512195 A 1.一种基于多交 互信息融合的图像描述方法, 其特 征在于, 包括如下步骤: 步骤1: 对数据集与图像真实文本描述进行 预处理; 步骤2: 提取 数据集中图像的全局图像融合特 征; 步骤3: 利用多模态 交互信息网络挖掘全局图像 融合特征与文本语义信息间的关系, 得 到该时间步的上 下文信息; 步骤4: 采用语义 解码的线性单 元解码上 下文信息生成输出 单词序列的概 率分布。 2.根据权利要求1所述基于多交互信息融合的图像描述方法, 其特征在于, 所述步骤1 预处理具体包括如下步骤: 步骤1.1: 将数据 集依次进行划分, 其中92%划分为训练集, 4%划分为验证集, 剩余4% 划分为测试集; 步骤1.2: 将数据集每张图片对应的5句真实描述的文本转换为小 写; 步骤1.3: 对转换为小写的真实描述逐单词进行统计得到语料库, 所述语料库以<UNK> 为结束标志, 并去除语料库中单词出现次数小于 5的单词; 步骤1.4: 统计每张图像的真实文本描述长度L={L1, L2, ..., Li}, 并将每张图像的真实 文本描述长度设定为argmax(L)+2, 对于真实文本描述长度小于argmax(L)+2的以令牌进行 填充。 3.根据权利要求1所述基于多交互信息融合的图像描述方法, 其特征在于, 所述步骤2 提取数据集中图像的全局图像融合特 征, 具体步骤如下: 步骤2.1: 采用目标检测模型提取训练集图像的所有显著区域特征, 记为v={ν1, v2, ..., va}, 其中, va表示第a个显著区域特 征; 步骤2.2: 对图像的显著区域特征v分别进行三次线性映射, 将得到的线性表示分别记 为Q、 K、 V, 具体公式如下: Q=vWQ+bQ K=vWK+bK V=vWV+bV 其中, WQ、 WK、 WV表示线性变换矩阵; bQ、 bK、 bV表示偏置 。 步骤2.3: 使用多视觉语义信息交互模块建模图像显著区域特征间的关系, 进而得到全 局图像融合特 征。 4.根据权利要求3所述基于多交互信息融合的图像描述方法, 其特征在于, 所述步骤 2.3使用多视觉语义信息交互模块建模图像显著区域特征间的关系, 进而得到全局图像融 合特征, 具体步骤如下: 所述多视觉语义信息 交互模块由3xNxR个线性层、 NxR个Layer  Norm层、 NxR个多头注意 力机制与NxR个AoA层而组成; 步骤2.3.1: 采用多头注意力机制, 使图像显著区域特征间相互选择性关注其他相关区 域特征, 从而获得局部特 征关系, 具体公式如下: fmulti_head_at t(Q, K, V)=Co ncat(head1, head2, ..., headH) 权 利 要 求 书 1/3 页 2 CN 115512195 A 2其中, fmulti_head_ att表示多头注意力函数; Concat表示向量拼接操作; he adj表示第j个头 注意力函数, 采用缩放的点积注意力函数来实现; H表示头的数量; 表示缩放因子; Qj、 Kj、 Vj表示第j个头的线性表示; softmax表示归一 化指数函数; 步骤2.3.2: 利用AoA机制确定局部特征关系与图像显著区域特征的相关性, 使各个图 像的显著特 征能够选择性关注到与之真正相关其 他区域特 征, 具体公式如下: 其中, σ 为sigmoid激 活函数; 表示逐元素相乘, 表示线性变换矩 阵; be、 bj表示偏置; 步骤2.3.3: 重复步骤2.3.1与步骤2.3.2N次, 以此 得到高级局部特 征关系fAoAS; 步骤2.3.4: 将图像显著区域特征与高级局部特征关系进行残差连接并归一化, 得到增 强图像特 征, 具体公式如下: v′=LayerNorm(v+fAoAS(fmulti_head_at t, Q, K, V)) 其中, LayerN orm为层归一 化函数; 步骤2.3.5: 重复步骤2.3.1至步骤2.3.4R次, 产生多层增强图像特 征; 步骤2.3.6: 采用向量拼接操作对多层增强图像特征进行融合, 得到多层增强图像融合 特征, 具体公式如下: 其中, [., .]表示向量拼接操作, v ′R表示第R层增强图像特征; 表示多层增强图像融合 特征; 步骤2.3.7: 通过对多层增强图像 融合特征进行平均池化生成全局图像融合特征, 具体 公式如下: 其中, 表示全局图像融合特 征; a表示多层增强图像融合特 征的通道数。 5.根据权利要求1所述基于多交互信息融合的图像描述方法, 其特征在于, 所述步骤3 中多模态交互信息网络由单个多头注意力层、 AoA层、 嵌入层以及U个长短期记忆网络而组 成, 具体包括如下步骤: 步骤3.1: 将语料库中所有单词所对应的词向量Π输入词嵌入层, 得到以one ‑hot编码 来表示词嵌入向量 WΠΠ; 步骤3.2: 将当前时间步的词嵌入向量、 全局图像融合特征与前一个时间步的上下文信 息作为U个长短期记忆网络的输入, 进而得到全局图像融合特征与词嵌入向量间交互信息 的多个互补信息, 具体公式如下: 其中, 表示当前时间步的第U组互补信息; 表示当前时间步的第U组细胞状态; WΠ权 利 要 求 书 2/3 页 3 CN 115512195 A 3

PDF文档 专利 一种基于多交互信息融合的图像描述方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多交互信息融合的图像描述方法 第 1 页 专利 一种基于多交互信息融合的图像描述方法 第 2 页 专利 一种基于多交互信息融合的图像描述方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:04:29上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。