(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211229170.8
(22)申请日 2022.10.08
(65)同一申请的已公布的文献号
申请公布号 CN 115311690 A
(43)申请公布日 2022.11.08
(73)专利权人 广州英码信息科技有限公司
地址 510663 广东省广州市黄埔区高新 技
术产业开发区科学城科研路3号自编
A2栋321房
(72)发明人 区英杰 符桂铭 谭焯康 董万里
(74)专利代理 机构 广州君策达知识产权代理事
务所(普通 合伙) 44749
专利代理师 陈宏升
(51)Int.Cl.
G06F 30/27(2020.01)G06V 40/10(2022.01)
G06N 3/04(2006.01)
G06V 10/764(2022.01)
G06V 10/766(2022.01)
G06V 10/82(2022.01)
(56)对比文件
CN 114299011 A,2022.04.08
CN 114332919 A,202 2.04.12
CN 114863366 A,2022.08.05
US 2022180534 A1,202 2.06.09
Yiguan L iao et al. .“Animal Attribute
Recognition via Multi-task Learn ing Based
on YOLOX. 《ICVIP 2021》 .202 2,
审查员 王俊杰
(54)发明名称
一种端到端的行人结构化信息及其从属关
系的检测方法
(57)摘要
本发明公开了一种端到端的行人结构化信
息及其从属关系的检测方法, 包括以下步骤: 首
先开发通用的结构化标注工具并进行数据标注,
同步设计好网络结构, 训练过程中需要对从属关
系进行增强, 并为预测框分配标签, 然后模型执
行推理, 利用模 型输出信息回归 行人结构化信息
矩形框的坐标, 最后计算损 失函数loss, 用于更
新模型。 本发明适用于边缘设备; 在边缘设备的
计算资源有限的情况下, 本发明通过端到端实现
有效资源下的效果最大化, 可以在检测行人矩形
框和行人结构化信息矩形框的同时, 直接输出从
属关系, 避免了后续的逻辑判断, 准确率更高; 同
时开发了通用的属性标注工具, 再标注检测框的
同时, 可标注框与框之间的从属关系, 有效提高
标注效率。
权利要求书3页 说明书9页 附图3页
CN 115311690 B
2022.12.23
CN 115311690 B
1.一种端到端的行人结构化信息及其从属关系的检测方法, 其特征在于, 包括以下步
骤:
S1、 对Yolox模型进行改进: 将Yolox模型的解耦头Decoupled Head的obj_output分支、
reg_output分支分别增 加S、 4*S个通道; 其中S为行 人结构化信息的类别个数;
所述对Yo lox模型进行改进, 具体是指:
首先, 将Yolox模型 的解耦头Decoupled Head的obj_output分支增加S个通道输出, 此
时输出大小为H*W* (1+S); Yolox模型的解耦头Decoupled Head的reg_output分支增加4*
S个通道, 此时输出大小为H*W*(4+4*S ); Yolox模型的解耦头Decoupled Head的cls_
output分支输出 大小为H*W*1; 其中, H为输出 特征图高度, W为输出特征图宽度;
S2、 在对改进后的Yolox模型进行训练前, 通过标注工具对训练样本的图像进行数据 标
注, 所标注的信息包括行人矩形框和行人结构化信息矩形框 以及它们之间的从属关系信
息;
标注所述行人矩形框和行人结构化信息矩形框以之间的从属关系信息是通过标注工
具直接连接行人矩形框和行人结构化信息矩形框之 间的左上角连线而建立起来; 通过连线
获取行人矩形框和行人结构化信息矩形框自身的id配对信息, 该配对信息会被保存至从属
关系label文件中;
S3、 对改进后的Yo lox模型进行训练:
对训练样本的图像数据进行增强, 同时对行人矩形框和行人结构化信 息矩形框之间的
从属关系进行增强, 并为预测框分配标签;
输入增强后的图像, 使用改进后的Yolox模型执行推理, 利用改进后的Yolox模型的输
出信息来回归行人结构化信息矩形框的坐标以及行人矩形框的坐标, 同时能够直接获得行
人矩形框和行 人结构化信息矩形框之间的从属关系;
所述使用改进后的Yolox模型执行推理, 具体是指: Yolox模型的解耦头Decoupled
Head的obj_output分支、 reg_output分支、 cl s_output分支经过合并得到最后的特征信息,
其大小为pred_num*dim_s; 其中, pred_num=W*H, 用于表征预测框个数; dim_s=1+1+S+4+4*
S, 用于表征每 个预测框特 征向量维度; 这时每 个预测框含有一个维度为dim_s的特 征向量:
[x y w h obj cls attr_1 ... attr_n x_1 y_1 w_1 h_1 ... x_n y_n w_n h_n]
其中, x为目标框中心点的x坐标信息, y为目标框中心点的y坐标信息, w为目标框的宽
度信息; h为目标框的高度信息; obj为目标框的得分信息; cls为目标框类别的得分信息;
attr_n为结构化信息n的得分信息, [x_n y_n w_n h_n]为结构化信息n的框坐标信息;
根据上述特征向量, 行人结构化信息的判断过程如 下: 当obj*cls大小满足行人矩形框
得分阈值时, 认为当前预测 框含有行人信息, [x y w h]为该行人矩形框坐标信息, 此时如
果结构化信息n的得分attr_n满足结构化信息概率阈值, 则认为该行人含有结构化信息n,
[x_n y_n w_n h_n]为行人结构化信息n的矩形框坐标信息; 这时整个端到端行人结构化信
息检测就完成了;
计算损失函数l oss, 并更新改进后的Yo lox模型, 完成训练;
S4、 待检测的图像输入到改进后且完成训练的Yolox模型, 所述模型端到端地直接输出
行人结构化信息矩形框以及行人矩形框的坐标、 行人矩形框和行人结构化信息矩形框之间
的从属关系。权 利 要 求 书 1/3 页
2
CN 115311690 B
22.根据权利要求1所述端到端的行人结构化信息及其从属关系的检测方法, 其特征在
于, 所述训练样 本的图像进行数据标注完成后, 标注好的数据格式共有三部 分组成: 图像数
据images、 矩形框标签信息labels、 从属关系标签信息图像relevate; 每部分又分成训练和
测试两部分。
3.根据权利要求1所述端到端的行人结构化信息及其从属关系的检测方法, 其特征在
于, 所述对训练样本的图像数据进行增强, 具体是指: 先将行人矩形框和行人结构化信息矩
形框的从属关系 标签信息存储进队列, 之后对图像数据、 行人矩形框和行人结构化信息矩
形框的标签信息一并进行mosaic和mixup数据增强, 最后再重新梳理增强后仍存在的行人
矩形框和行人结构化信息矩形框, 根据行人矩形框和结构化框是否存在或者新增来判断从
属关系是否存在或者增加, 从而对原队列中的从属关系进行删除或者增加, 更新后的队列
数据即位增强后的从属关系标签信息 。
4.根据权利要求1所述端到端的行人结构化信息及其从属关系的检测方法, 其特征在
于, 所述为预测框分配标签, 具体实现方式如下: 对行人矩形框的预测框进行标签分配时,
采用真实矩形框标签信息对解偶头上的特征图进 行正负样本区域划分, 即将位于真实矩形
框内的所有预测框作为正样本候选框, 其余为负样本; 对行人结构化信息矩形框的预测框
进行标签分配时, 不采用行人结构化信息矩形框的真实框对解偶头上的特征图进 行区域划
分, 而仍采用行人矩形框的真实框进行替代, 这样保持了行人矩形框和行人结构化信息矩
形框之间的标签分配一致性, 可加速训练模型性能收敛, 同时避免了训练后的模型出现检
测到行人矩形框却没有检测到结构化信息的情况。
5.根据权利要求1所述端到端的行人结构化信息及其从属关系的检测方法, 其特征在
于, 所述结构化信息矩形框回归方法, 具体如下:
当输入图形分辨率为640*640时, 三个Decoupled Head分别有不同降采样尺度的特征
图输出, 特 征图W*H分别为20 *20, 40*40, 80*80;
对于其中一个特征图的每一个单元格, 都有对应的锚框anchor; 当特征图W*H分别为
20*20时, 锚框大小为32*32, 和降采样倍率一致; 根据改进后的Yolox模 型, 给出了某一单元
格(U_w,U_h)下的结构化信息n的矩形框坐标信息[x_n y_n w_n h_n], 结合其所在特征图
的锚框信息, 计算出实际分辨率下的矩形框坐标; 其中, x_n为矩形框中心点相对当前单元
格的x偏移, y_n 为矩形框中心点相对当前 单元格的y偏移;
假设锚框 宽为anchor_w, 锚框高为anc hor_h, 则结构化信息矩形框实际像素坐标为:
其中, (x_pixel,y_pixel)为矩形框中点, w_pixel为矩形框宽度, h_pixel为矩形框高
度;
上述计算公式中, 只有[x_
专利 一种端到端的行人结构化信息及其从属关系的检测方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:04:22上传分享