iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211205005.9 (22)申请日 2022.09.30 (71)申请人 南京邮电大 学 地址 210023 江苏省南京市栖霞区文苑路9 号 (72)发明人 朱博 谢俊哲 范希明 高翔  徐国政 程泽恒 姚子雄  (74)专利代理 机构 南京正联知识产权代理有限 公司 32243 专利代理师 杭行 (51)Int.Cl. G06V 20/00(2022.01) G06V 10/40(2022.01) G06V 10/42(2022.01) G06V 10/764(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种由注意力融合三特征的机器人场景识 别与解析方法 (57)摘要 一种由注意力融合三特征的机器人场景识 别与解析方法, 提出利用物品识别算法中物品特 征图进一步精确解析场景中物品信息的方法; 提 出一种获取物品单体描述信 度的方法, 并且设计 了由物品单体描述信度组成的物品向量; 改造了 卷积神经网络CNN的全连接层网络, 并定义了某 个全连接层网络的输出为全局特征; 求出卷积神 经网络CNN卷积层的输出的格拉姆矩阵, 并提出 全连接层网络的结构, 在输入为格 拉姆矩阵时输 出为风格特征; 利用注意力机制将三种特征进行 融合, 并将融合注意力向量送进用于分类的全 连 接层网络, 输出即为最终的场景标签。 本发明支 持整体训练优化, 可以解析该场景的物品标签与 场景标签, 在室内场景解析与场景分类中有较好 的结果。 权利要求书2页 说明书5页 附图5页 CN 115294441 A 2022.11.04 CN 115294441 A 1.一种由注意力融合三特征的机器人场景识别与解析方法, 其特征在于: 包括如下步 骤: 步骤1, 检测图片以进行物品识别, 对已检测出的物品提取特征图, 将其送入全连接层 网络一, 全连接层网络一输出向量中最大值对应的索引为该场景中物品的标签; 步骤2, 检测图片以进行物品识别, 对已检测出的物品提取特定卷积层上的特征图, 构 造物品单体描述信度, 基于由物品单体描述信度构成的物品向量来描述图像涉及的物品整 体特征; 步骤3, 对卷积神经网络VGG的全连接层网络进行改造, 并记为全连接层网络二, 向网络 中输入图片, 将全连接层网络二的倒数第二层的输出作为全局特 征; 步骤4, 对于卷积神经网络VGG卷积层的最后一层的输出形式整理并求其格拉姆矩阵, 设计全连接层网络三, 将格拉姆 矩阵作为输入, 输出相应的风格特 征; 步骤5, 通过全连接层网络四结合注意力机制, 将物品特征、 全局特征与风格特征进行 融合, 得到该场景的融合注意力向量; 步骤6, 通过全连接网络五, 将步骤(5)得的融合注意力向量输入, 输出的向量中最大值 对应的索引为预测场景的对应标签; 步骤7, 整理步骤1和步骤6的输出, 最终得到该场景的物品标签与该场景的标签。 2.根据权利要求1所述的一种由注意力融合三特征的机器人场景识别与解析方法, 其 特征在于: 步骤1 中, 对于采用的物品识别算法, 找到其捕捉物品特征的卷积层, 对已检测出 的物品提取该卷积层上的特征图, 对其进行flatten操作并送入全连接层网络一, 全连接层 网络输出向量 最大值的索引为物品标签。 3.根据权利要求1所述的一种由注意力融合三特征的机器人场景识别与解析方法, 其 特征在于: 步骤2中, 包括如下分步骤: 步骤2.1, 用特征图卷积法得到物品单体描述信度; 对于物品识别算法, 找到其捕捉物 品特征的卷积层, 对已检测出 的物品提取该卷积层上 的特征图, 将卷积层上该位置物品的 特征图用与特征图相同深度的卷积核进行卷积, 并将所有的卷积结果求和, 将所得值作为 物品单体描述信度; 步骤2.2, 利用物品单体描述信度构造的物品向量结构如下 所示: 其中 表示物品类 的第j个物品单体描述信度, 元素所处的位置隐含了物品类别的 信息, 对于第k类物品设检测器实际输出物品数量为 , 首先依照物品识别算法给出的置 信度从大到小的顺序将对应的物品单体描述信度放置在该物品向量类 所属的位置 , 若 为0, 则将 中各个元素全部设为0;若 大于 , 则取N中前 个 数据, 若 小于 , 则将不足 的部分补0; 将 到 进行拼接, 得到物品向量。 4.根据权利要求1所述的一种由注意力融合三特征的机器人场景识别与解析方法, 其 特征在于: 步骤3中, 令卷积神经网络CNN的最后一层全连接层网络神经元数量等于要识别权 利 要 求 书 1/2 页 2 CN 115294441 A 2的场景数量, 并指 定标签, 令倒数第二层的全连接层网络神经元个数等于物品向量 维数, 并 将该层的输出作为该场景全局特 征。 5.根据权利要求1所述的一种由注意力融合三特征的机器人场景识别与解析方法, 其 特征在于: 步骤4中, 包括如下分步骤: 步骤4.1, 将卷积层输出进行 形状整理, 并用以求 解出格拉姆 矩阵; 步骤4.2, 对于形式上为对角阵的格拉姆矩阵, 以对角线为划分保留其右上角部分, 将 其进行flat ten操作, 并将结果送入后续全连接层网络三; 步骤4.3, 将全连接层网络三输出作为该图片的风格特 征。 6.根据权利要求1所述的一种由注意力融合三特征的机器人场景识别与解析方法, 其 特征在于: 步骤5, 包括如下分步骤: 步骤5.1, 对于某一场景类别数量为X个, 每一张场景图片的全局向量的长度为R维, 物 品特征为T维, 风格特征为 J维, 则首先对该场景类别的三种特征分别进 行堆叠, 得到的结果 为大小为(X, R)的场景全部全局特征、 大小为(X,T)的场景全部物品向量和大小为(X, J)的 场景全部风格特 征; 步骤5.2, 设置LSTM记忆步长为S, 将场景全部全局特征与全部风格特征中连续的S个向 量继续进行堆叠, 形成结构为(X ‑S, S, R)的全局特征与结构为(X ‑S, S, J)的全部风格特 征; 步骤5.3, 将全局特征送入LSTM网络一, 并取网络最后一个时间步长的输出, 寻找输出 向量中前N个最大的值, 并将其作为全局注意力向量; 将风格特征送入LSTM网络二, 并取网 络最后一个时间步长的输出, 寻找输出向量中前L个最大的值, 并将其作为风格注意力向 量; 同时寻找物品向量前M个最大值对应的索引并除以该物品特征向量的长度, 并将其作为 物品注意力向量, 将三个注意力向量进行拼接, 形成融合特 征; 步骤5.4, 提出了全连接层网络四, 将融合特征送入全连接层网络四, 全连接层网络四 的输出维度为3, 并对出输出值归一化, 得到3个归一化输出, 分别对应于全局特征的权重、 风格特征的权重与 物品特征的权重, 分别将其与原全局特征、 风格特征相乘, 得到加权后的 三特征向量; 将3个加权特 征向量进行拼接, 得到融合注意力向量。 7.根据权利要求1所述的一种由注意力融合三特征的机器人场景识别与解析方法, 其 特征在于: 所述方法中, 全连接层网络一的结构为(512,126,68), 全连接网络二的结构为 (25088, 4096, 286, 15) , 全连接层网络三的结构为(1225,286), 全连接层网络四的结构为 (27,12,3), 全连接层网络五的结构为(1024,512,126,15)。权 利 要 求 书 2/2 页 3 CN 115294441 A 3

PDF文档 专利 一种由注意力融合三特征的机器人场景识别与解析方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种由注意力融合三特征的机器人场景识别与解析方法 第 1 页 专利 一种由注意力融合三特征的机器人场景识别与解析方法 第 2 页 专利 一种由注意力融合三特征的机器人场景识别与解析方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:04:23上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。