iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211190519.1 (22)申请日 2022.09.28 (71)申请人 山东大学 地址 250061 山东省济南市历下区经十路 17923号 (72)发明人 常发亮 杨如瑞 刘春生 王德鑫  郇恒强  (74)专利代理 机构 济南圣达知识产权代理有限 公司 372 21 专利代理师 黄海丽 (51)Int.Cl. G06T 7/73(2017.01) G06V 10/30(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) G06V 20/50(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于全局和局部信息的像素级抓取位姿检 测方法及系统 (57)摘要 本发明公开了基于全局和局部信息的像素 级抓取位姿检测方法及系统; 其中所述方法包 括: 获取场景图像, 并对场景图像进行预处理; 将 预处理后的场景图像, 输入到训练后的像素级抓 取位姿检测网络中, 输出每个像素点的平面抓取 位姿, 经过位姿转换关系, 将平面抓取位姿映射 到现实场景, 由机械臂实现目标对象的抓取; 其 中, 训练后的像素级抓取位姿检测 网络, 其工作 原理包括: 对场景图像进行特征提取, 得到图像 特征; 对提取的图像特征进行降噪处理; 对降噪 处理后的图特征进行特征融合, 得到包含不同感 受野的特征图; 对包含不同感受野的特征图进行 分类预测, 输出每 个像素点的平面 抓取位姿。 权利要求书3页 说明书12页 附图4页 CN 115526935 A 2022.12.27 CN 115526935 A 1.基于全局 和局部信息的像素级抓取位姿检测方法, 其特 征是, 包括: 获取场景图像, 并对场景图像进行 预处理; 将预处理后的场景图像, 输入到训练后的像素级抓取位姿检测网络中, 输出每个像素 点的平面抓取位姿, 经过位姿转换关系, 将平面抓取位姿映射到现实场景, 由机械臂实现目 标对象的抓取; 其中, 训练后的像素级抓取位姿检测网络, 其工作原理包括: 对场景图像进行特征提 取, 得到图像特征; 对提取的图像特征进行降噪处理; 对降噪处理后的图特征进行特征融 合, 得到包含不同感受野的特征图; 对包含不同感受野的特征图进 行分类预测, 输出每个像 素点的平面 抓取位姿。 2.如权利要求1所述的基于全局和局部信 息的像素级抓取位姿检测方法, 其特征是, 所 述训练后的像素级抓取位姿检测网络, 其网络结构包括: 依次连接的骨干网络、 去噪网络、 特 征融合网络和解码器; 所述骨干网络采用改进后的Sw in Transformer网络来实现; 所述改进后的Swin  Transformer网络, 是将Swin  Transformer网络的Swin   Transformer  Block均替换为第一改进后的Sw in Transformer  Block。 3.如权利要求2所述的基于全局和局部信 息的像素级抓取位姿检测方法, 其特征是, 所 述第一改进后的Sw in Transformer  Block, 包括: 依次连接的第一基本单 元和第二基本单 元; 所述第一基本单元, 包括: 依次连次连接的第一层归一化层LN、 窗多头自注意力机制 层、 加法器J1、 第二层归一化层LN、 第一改进FFN模块和加法器J2; 其中, 加法器J1的输入端 与第一层 归一化层LN的输入端残差连接; 加法器J2的输入端与第二层归一化层LN的输入端 残差连接; 所述第二基本单元, 包括: 依次连次连接的第三层归一化层LN、 移位窗多头自注意力机 制层、 加法器J3、 第四层归一化层LN、 第二改进FFN模块和加法器J4; 其中, 加法器J3的输入 端与第三层 归一化层LN的输入端残差连接; 加法器J4的输入端与第四层归一化层LN的输入 端残差连接; 第一层归一化层LN的输入端作为第一改进后的Swin  Transformer  Block的输入端; 加 法器J4的输出端作为第一改进后的Swin  Transformer  Block的输出端; 加法器J2的输出端 与第三层归一 化层LN的输入端连接; 第一改进F FN模块与第二改进F FN的内部结构是一 致的; 所述第一改进F FN模块, 包括: 依次连接的1*1的卷积层C1、 维度 变换Reshape层R1、 3*3的深度可分离卷积D epth‑wise 层C2、 维度变换Reshape层R2和卷积层C 3。 4.如权利要求3所述的基于全局和局部信 息的像素级抓取位姿检测方法, 其特征是, 所 述第一改进F FN模块, 工作原理包括: 在通过滑动窗口注意力 机制层处理之后得到特征编码P, 使用一维卷积挖掘特征编码P 的通道相关性, 得到特 征编码L; 然后将特征编码L从一维调整为二维图像特征F, 送入Depth ‑wise卷积提取局部特征 F′;权 利 要 求 书 1/3 页 2 CN 115526935 A 2然后将得到的F ′调整成一维特 征编码L′, 继续使用一维卷积处 理得到特 征图P′。 5.如权利要求2所述的基于全局和局部信 息的像素级抓取位姿检测方法, 其特征是, 所 述改进后的Sw in Transformer网络, 其工作原理包括: 将输入图像切成一个个patch, 然后嵌入向量, 得到输入图像的Token, 然后经过四个 Swin Transformer  Block进行特征提取, 得到特 征图; 所述第一改进后的Sw in Transformer  Block, 其工作原理包括: 对于输入的 图像Token的编码Si, 采用一个窗多头自注意力机制层或者移位窗多头自注 意力机制层的线性转换层计算得到一个query向量Qi,key向量Ki和一个value 向量Vi; 随后 将Qj和Ki点乘后得到一个分数, 用来表示输入Sj与Si的相似性, 并且将这个分数作为权重与 Vi加权求和后得到注意力特征headi; 这个过程被称作缩放点乘注意力, 用矩阵的形式表示 为: 其中, d是Q和K的维度, B是相对位置编码; 对提取的注意力特 征序列重新调整大小成二维特 征图像; 对得到的二维特征图像进行卷积操作, 提取局部信息, 获取不同特征点与其周围特征 点之间的关系; 将经过卷积处理过的特征图重新调成大小成一维特征序列, 送入后续的Swin   Transformer  Block中继续计算。 6.如权利要求2所述的基于全局和局部信 息的像素级抓取位姿检测方法, 其特征是, 所 述去噪网络, 其工作原理包括: 将改进后的Swin  Transformer网络得到的四层特征图分别标记为S1,S2,S3,S4, 分别 是Stage1, Stage2, Stage3, Stage4的结果, 它 们的尺寸逐渐减小; 对S1和S2使用池化处理将尺寸缩小到S3的大小, 使用双线性插值将S4的尺寸放大到S3 的大小, 将处 理后的特 征图相加, 再 经过Refine层进行细化与特 征图平衡, 得到特 征图A3; 对特征图A3使用双线性插值恢复到S1原来的尺寸, 再与S1相加, 得到特 征图A1; 对特征图A3使用双线性插值恢复到S2 原来的尺寸, 再与S2相加, 得到特 征图A2; 对特征图A3使用使用池化操作恢复到S4原来的尺寸, 再与S4相加, 得到特 征图A4; 随后将A4双线性插值 放大到A3的尺寸大小, 再与A3相加得到 M3; 将M3双线性插值 放大到A2的尺寸大小, 再与A 2相加得到 M2; 再将M2双线性插值 放大到A1的尺寸大小, 再与A1相加得到 M1; 然后将M2,M 3,A4使用双线性插值 放大到A1的尺寸; 再将M1,M2,M 3,A4拼接成高维特 征图; 接着使用卷积层降维, 得到特 征融合网络的输入特 征图。 7.如权利要求2所述的基于全局和局部信 息的像素级抓取位姿检测方法, 其特征是, 所 述特征融合网络, 其工作原理为: 使用四个不同膨胀系数的空洞卷积对经过平衡特征金字塔降噪和FPN处理后的特征图 进行处理, 来扩大解码阶段的感受野, 得到四个具有不同感受野的特 征图f1 f2 f3 f4; 随后使用卷积 网络计算这四个特征图对后续解码的重要性, 得到 再将W分权 利 要 求 书 2/3 页 3 CN 115526935 A 3

PDF文档 专利 基于全局和局部信息的像素级抓取位姿检测方法及系统

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于全局和局部信息的像素级抓取位姿检测方法及系统 第 1 页 专利 基于全局和局部信息的像素级抓取位姿检测方法及系统 第 2 页 专利 基于全局和局部信息的像素级抓取位姿检测方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:04:30上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。