(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211190519.1
(22)申请日 2022.09.28
(71)申请人 山东大学
地址 250061 山东省济南市历下区经十路
17923号
(72)发明人 常发亮 杨如瑞 刘春生 王德鑫
郇恒强
(74)专利代理 机构 济南圣达知识产权代理有限
公司 372 21
专利代理师 黄海丽
(51)Int.Cl.
G06T 7/73(2017.01)
G06V 10/30(2022.01)
G06V 10/764(2022.01)
G06V 10/80(2022.01)G06V 10/82(2022.01)
G06V 20/50(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于全局和局部信息的像素级抓取位姿检
测方法及系统
(57)摘要
本发明公开了基于全局和局部信息的像素
级抓取位姿检测方法及系统; 其中所述方法包
括: 获取场景图像, 并对场景图像进行预处理; 将
预处理后的场景图像, 输入到训练后的像素级抓
取位姿检测网络中, 输出每个像素点的平面抓取
位姿, 经过位姿转换关系, 将平面抓取位姿映射
到现实场景, 由机械臂实现目标对象的抓取; 其
中, 训练后的像素级抓取位姿检测 网络, 其工作
原理包括: 对场景图像进行特征提取, 得到图像
特征; 对提取的图像特征进行降噪处理; 对降噪
处理后的图特征进行特征融合, 得到包含不同感
受野的特征图; 对包含不同感受野的特征图进行
分类预测, 输出每 个像素点的平面 抓取位姿。
权利要求书3页 说明书12页 附图4页
CN 115526935 A
2022.12.27
CN 115526935 A
1.基于全局 和局部信息的像素级抓取位姿检测方法, 其特 征是, 包括:
获取场景图像, 并对场景图像进行 预处理;
将预处理后的场景图像, 输入到训练后的像素级抓取位姿检测网络中, 输出每个像素
点的平面抓取位姿, 经过位姿转换关系, 将平面抓取位姿映射到现实场景, 由机械臂实现目
标对象的抓取;
其中, 训练后的像素级抓取位姿检测网络, 其工作原理包括: 对场景图像进行特征提
取, 得到图像特征; 对提取的图像特征进行降噪处理; 对降噪处理后的图特征进行特征融
合, 得到包含不同感受野的特征图; 对包含不同感受野的特征图进 行分类预测, 输出每个像
素点的平面 抓取位姿。
2.如权利要求1所述的基于全局和局部信 息的像素级抓取位姿检测方法, 其特征是, 所
述训练后的像素级抓取位姿检测网络, 其网络结构包括:
依次连接的骨干网络、 去噪网络、 特 征融合网络和解码器;
所述骨干网络采用改进后的Sw in Transformer网络来实现;
所述改进后的Swin Transformer网络, 是将Swin Transformer网络的Swin
Transformer Block均替换为第一改进后的Sw in Transformer Block。
3.如权利要求2所述的基于全局和局部信 息的像素级抓取位姿检测方法, 其特征是, 所
述第一改进后的Sw in Transformer Block, 包括:
依次连接的第一基本单 元和第二基本单 元;
所述第一基本单元, 包括: 依次连次连接的第一层归一化层LN、 窗多头自注意力机制
层、 加法器J1、 第二层归一化层LN、 第一改进FFN模块和加法器J2; 其中, 加法器J1的输入端
与第一层 归一化层LN的输入端残差连接; 加法器J2的输入端与第二层归一化层LN的输入端
残差连接;
所述第二基本单元, 包括: 依次连次连接的第三层归一化层LN、 移位窗多头自注意力机
制层、 加法器J3、 第四层归一化层LN、 第二改进FFN模块和加法器J4; 其中, 加法器J3的输入
端与第三层 归一化层LN的输入端残差连接; 加法器J4的输入端与第四层归一化层LN的输入
端残差连接;
第一层归一化层LN的输入端作为第一改进后的Swin Transformer Block的输入端; 加
法器J4的输出端作为第一改进后的Swin Transformer Block的输出端; 加法器J2的输出端
与第三层归一 化层LN的输入端连接;
第一改进F FN模块与第二改进F FN的内部结构是一 致的;
所述第一改进F FN模块, 包括:
依次连接的1*1的卷积层C1、 维度 变换Reshape层R1、 3*3的深度可分离卷积D epth‑wise
层C2、 维度变换Reshape层R2和卷积层C 3。
4.如权利要求3所述的基于全局和局部信 息的像素级抓取位姿检测方法, 其特征是, 所
述第一改进F FN模块, 工作原理包括:
在通过滑动窗口注意力 机制层处理之后得到特征编码P, 使用一维卷积挖掘特征编码P
的通道相关性, 得到特 征编码L;
然后将特征编码L从一维调整为二维图像特征F, 送入Depth ‑wise卷积提取局部特征
F′;权 利 要 求 书 1/3 页
2
CN 115526935 A
2然后将得到的F ′调整成一维特 征编码L′, 继续使用一维卷积处 理得到特 征图P′。
5.如权利要求2所述的基于全局和局部信 息的像素级抓取位姿检测方法, 其特征是, 所
述改进后的Sw in Transformer网络, 其工作原理包括:
将输入图像切成一个个patch, 然后嵌入向量, 得到输入图像的Token, 然后经过四个
Swin Transformer Block进行特征提取, 得到特 征图;
所述第一改进后的Sw in Transformer Block, 其工作原理包括:
对于输入的 图像Token的编码Si, 采用一个窗多头自注意力机制层或者移位窗多头自注
意力机制层的线性转换层计算得到一个query向量Qi,key向量Ki和一个value 向量Vi; 随后
将Qj和Ki点乘后得到一个分数, 用来表示输入Sj与Si的相似性, 并且将这个分数作为权重与
Vi加权求和后得到注意力特征headi; 这个过程被称作缩放点乘注意力, 用矩阵的形式表示
为:
其中, d是Q和K的维度, B是相对位置编码;
对提取的注意力特 征序列重新调整大小成二维特 征图像;
对得到的二维特征图像进行卷积操作, 提取局部信息, 获取不同特征点与其周围特征
点之间的关系;
将经过卷积处理过的特征图重新调成大小成一维特征序列, 送入后续的Swin
Transformer Block中继续计算。
6.如权利要求2所述的基于全局和局部信 息的像素级抓取位姿检测方法, 其特征是, 所
述去噪网络, 其工作原理包括:
将改进后的Swin Transformer网络得到的四层特征图分别标记为S1,S2,S3,S4, 分别
是Stage1, Stage2, Stage3, Stage4的结果, 它 们的尺寸逐渐减小;
对S1和S2使用池化处理将尺寸缩小到S3的大小, 使用双线性插值将S4的尺寸放大到S3
的大小, 将处 理后的特 征图相加, 再 经过Refine层进行细化与特 征图平衡, 得到特 征图A3;
对特征图A3使用双线性插值恢复到S1原来的尺寸, 再与S1相加, 得到特 征图A1;
对特征图A3使用双线性插值恢复到S2 原来的尺寸, 再与S2相加, 得到特 征图A2;
对特征图A3使用使用池化操作恢复到S4原来的尺寸, 再与S4相加, 得到特 征图A4;
随后将A4双线性插值 放大到A3的尺寸大小, 再与A3相加得到 M3;
将M3双线性插值 放大到A2的尺寸大小, 再与A 2相加得到 M2;
再将M2双线性插值 放大到A1的尺寸大小, 再与A1相加得到 M1;
然后将M2,M 3,A4使用双线性插值 放大到A1的尺寸;
再将M1,M2,M 3,A4拼接成高维特 征图;
接着使用卷积层降维, 得到特 征融合网络的输入特 征图。
7.如权利要求2所述的基于全局和局部信 息的像素级抓取位姿检测方法, 其特征是, 所
述特征融合网络, 其工作原理为:
使用四个不同膨胀系数的空洞卷积对经过平衡特征金字塔降噪和FPN处理后的特征图
进行处理, 来扩大解码阶段的感受野, 得到四个具有不同感受野的特 征图f1 f2 f3 f4;
随后使用卷积 网络计算这四个特征图对后续解码的重要性, 得到
再将W分权 利 要 求 书 2/3 页
3
CN 115526935 A
3
专利 基于全局和局部信息的像素级抓取位姿检测方法及系统
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:04:30上传分享