(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211251614.8
(22)申请日 2022.10.13
(71)申请人 南京航空航天大 学
地址 211106 江苏省南京市江宁区将军大
道29号
(72)发明人 李绍园 陈佳瑶
(74)专利代理 机构 青岛锦佳专利代理事务所
(普通合伙) 37283
专利代理师 朱玉建
(51)Int.Cl.
G06V 10/764(2022.01)
G06V 10/774(2022.01)
G06N 20/00(2019.01)
(54)发明名称
基于解码器迭代筛选的鲁棒噪声多标签图
像学习方法
(57)摘要
本发明属于图像学习技术领域, 公开了一种
基于解码器迭代筛选的鲁棒噪声多标记 图像学
习方法。 该方法针对多标记图像分类存在多标、
漏标和错标的问题, 提出采用基于解码器的迭代
筛选噪声机制, 以恢复样本的错误标注, 从而提
升深度学习模 型在噪声多 标记上的准确率, 具体
包括如下步骤: 获取训练图像集及多标签噪声 标
注; 初始化各项 参数; 搭建深度学习模型、 损失函
数以及正则化项; 将训练集图像及标注依次输入
多标记分类器; 每次迭代筛选时调整模型状态以
检测噪声标记, 为噪声样本重新预测伪标记, 统
计标记共现概率并输入 标记模型进行微调; 训练
完成后, 使用训练获得的分类器对图像进行类别
预测任务。
权利要求书3页 说明书6页 附图3页
CN 115331065 A
2022.11.11
CN 115331065 A
1.基于解码器迭代筛 选的鲁棒噪声 多标记图像学习方法, 其特 征在于,
包括如下步骤:
步骤1. 获取数据集 D={(xi,yi)},D表示由通过网络平台获取的图像 xi及其对应的包含
噪声的多标记向量 yi组成的训练数据集, yi=[ y1
i, y2
i ,...,yl
i],i∈{1,N};
ym
i表示第i个样本对应于第 m类的标记, m∈{1,l};
其中,N表示数据集 D中的样本总数, l表示数据集 D中的类别总数;
步骤2. 初始化各项参数, 包括: 迭代轮数 τ=0、 筛选噪声率 R、 伪标记阈值 μ、 预训练参数
twarm、 筛选参数tc、 学习率η以及类的高维语义嵌入{ vm},m∈{1,l};
其中,vm表示第m类的高维语义嵌入;
步骤3. 搭建深度学习模型即分类器 C、 二元交叉熵损失函数 LBCE以及正则化项; 其中,
正则化项包括标记语义 正则化项 LLSR以及标记关系正则化项 LLRR;
步骤4. 在Warm‑up训练阶段, 将数据集 D中图像xi及其对应的多标记向量 yi送入分类器
C中训练twarm轮, 优化二元交叉熵损失函数 LBCE和标记语义 正则化项 LLSR来更新C;
步骤5. 在迭代筛选阶段, 调整模型状态, 记录每个标记在调整过程中规范化损失以检
测噪声; 将规范化损失由大到小进行排序, 并取排序的前 R%的标记对应的样本为噪声样本
集Dnoisy, 剩余为干净样本集 Dclean;
步骤 6. 使用分类器 C依次为噪声样本集 Dnoisy中每个样本 xi进行类别预测, 并取预测
类别概率值大于伪标记阈值 μ的类别作样本 xi的伪标记, 构成伪标记集 Dpseudo;
步骤 7. 统计数据集{ Dpseudo, Dclean}中标记的共现概 率;
步骤 8. 将数据集{ Dpseudo, Dclean}重新输入分类器 C, 优化二元交叉熵损失函数 LBCE和
标记关系正则化项 LLRR来微调分类 器C;
步骤 9. 判断当前迭代次数 τ是否达到最大迭代次数 T; 若当前迭代次数 τ未达到最大
迭代次数 T, 则返回步骤5继续迭代训练, τ= τ +1; 否则, 转到步骤10;
步骤10. 模型训练完成之后, 得到能够在多标记数据集上完成可靠分类性能的分类器
C; 利用训练好的分类 器C执行分类预测任务。
2.根据权利要求1所述的鲁棒噪声 多标记图像学习方法, 其特 征在于,
所述分类器 C由一个预训练的残差网络构成的特征提取器和一个 Transformer 解码器
组成; 其中, 残差网络最后的全连接层替换为 解码器, 解码器中删除了自注意力模块;
残差网络用于提取图像特 征, 并将图像映射到高维特 征空间;
Transformer 解码器对映射后的特 征进行预测概率, 映射到 l维的预测概 率向量。
3.根据权利要求1所述的鲁棒噪声 多标记图像学习方法, 其特 征在于,
所述步骤5具体为:
步骤 5.1. 定义循环筛 选轮数tc和最大循环轮数 Tc, 初始化tc=0;
步骤 5.2. 按照如下公式调整模型的学习率 η, 以改变模型的拟合状态:
η=ηmin+1/2(ηmax-ηmin)(1+cos( (tc·π )/Tc));
其中,ηmin和ηmax分别表示模型训练中最小学习率和最大 学习率;
步骤 5.3. 将数据集 D中每个样本( xi,yi)输入分类器 C, 得到类别预测结果
=C(xi);
利用二元交叉熵损失函数 LBCE, 计算每个样本(xi,yi)的预测结果
的损失值 Ii;权 利 要 求 书 1/3 页
2
CN 115331065 A
2Ii={I1
i, I 2
i ,..., I l
i};
其中,I m
i表示在当前轮时第 i个图像对应于第 m类的损失值, m∈{1,l};
步骤 5.4. 记录当前 tc轮每个样本的损失值 Ii, 计算当前 tc轮全部样本的平均损失
;
步骤 5.5. 通过步骤5.4得到的 Ii和
, 计算当前 tc轮每个样本的规范化损失值
;
=Ii-
;
在迭代筛 选阶段, 优化 二元交叉熵损失函数 LBCE来更新分类 器C;
步骤 5.6. 判断当前循环筛选轮数 tc是否达到最大循环轮数 Tc; 若tc未达到最大循环
轮数Tc, 则返回步骤5.2, 继续循环训练, tc=tc+1; 否则, 转到步骤5.7;
步骤 5.7. 计算每个样本在所有循环中的平均损失
;
;
则样本xi对应的标记 平均损失为
;
表示第i个图像对应于第 m类的平均损失值, m∈{1,l};
根据标记的平均损失由大到小排序, 并取排序的前 R%标记对应的样本作为噪声样本集
Dnoisy, 剩余为干净样本集 Dclean。
4.根据权利要求1所述的鲁棒噪声 多标记图像学习方法, 其特 征在于,
所述步骤6中, 伪标记集 Dpseudo的计算过程如下:
对输入的图像 xi, 经过分类器C得到新的预测结果
=C(xi);
其中,
,
表示第i个图像对应于第 m类的预测结果;
按照如下公式生成伪标记:
yi=
[
≥μ];
其中,
[·]为指示函数, 如果条件成立, 则 伪标记为1, 反 之, 伪标记为0;
对噪声样本集 Dnoisy中所有样本运用上述方法, 得到伪标记集 Dpseudo。
5.根据权利要求1所述的鲁棒噪声 多标记图像学习方法, 其特 征在于,
所述步骤7中, 标记共现概 率矩阵Lp(m, n)由以下公式计算:
Lp(m, n)=Nm,n /Nsum;
其中,Lp即为包含所统计标记之间共现概 率的矩阵;
Nm,n表示m类和n类标记的共现次数, Nsum为所有标记的全部共现次数, m,n∈{1,l}。
6.根据权利要求5所述的鲁棒噪声 多标记图像学习方法, 其特 征在于,
在训练阶段, 优化 二元交叉熵损失函数 LBCE以及正则化项 LLSR和LLRR来更新分类 器C;
二元交叉熵损失函数 LBCE的具体形式为:权 利 要 求 书 2/3 页
3
CN 115331065 A
3
专利 基于解码器迭代筛选的鲁棒噪声多标签图像学习方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:04:15上传分享