iso file download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211251614.8 (22)申请日 2022.10.13 (71)申请人 南京航空航天大 学 地址 211106 江苏省南京市江宁区将军大 道29号 (72)发明人 李绍园 陈佳瑶  (74)专利代理 机构 青岛锦佳专利代理事务所 (普通合伙) 37283 专利代理师 朱玉建 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/774(2022.01) G06N 20/00(2019.01) (54)发明名称 基于解码器迭代筛选的鲁棒噪声多标签图 像学习方法 (57)摘要 本发明属于图像学习技术领域, 公开了一种 基于解码器迭代筛选的鲁棒噪声多标记 图像学 习方法。 该方法针对多标记图像分类存在多标、 漏标和错标的问题, 提出采用基于解码器的迭代 筛选噪声机制, 以恢复样本的错误标注, 从而提 升深度学习模 型在噪声多 标记上的准确率, 具体 包括如下步骤: 获取训练图像集及多标签噪声 标 注; 初始化各项 参数; 搭建深度学习模型、 损失函 数以及正则化项; 将训练集图像及标注依次输入 多标记分类器; 每次迭代筛选时调整模型状态以 检测噪声标记, 为噪声样本重新预测伪标记, 统 计标记共现概率并输入 标记模型进行微调; 训练 完成后, 使用训练获得的分类器对图像进行类别 预测任务。 权利要求书3页 说明书6页 附图3页 CN 115331065 A 2022.11.11 CN 115331065 A 1.基于解码器迭代筛 选的鲁棒噪声 多标记图像学习方法, 其特 征在于, 包括如下步骤: 步骤1. 获取数据集 D={(xi,yi)},D表示由通过网络平台获取的图像 xi及其对应的包含 噪声的多标记向量 yi组成的训练数据集, yi=[ y1 i, y2 i ,...,yl i],i∈{1,N}; ym i表示第i个样本对应于第 m类的标记, m∈{1,l}; 其中,N表示数据集 D中的样本总数, l表示数据集 D中的类别总数; 步骤2. 初始化各项参数, 包括: 迭代轮数 τ=0、 筛选噪声率 R、 伪标记阈值 μ、 预训练参数 twarm、 筛选参数tc、 学习率η以及类的高维语义嵌入{ vm},m∈{1,l}; 其中,vm表示第m类的高维语义嵌入; 步骤3. 搭建深度学习模型即分类器 C、 二元交叉熵损失函数 LBCE以及正则化项; 其中, 正则化项包括标记语义 正则化项 LLSR以及标记关系正则化项 LLRR; 步骤4. 在Warm‑up训练阶段, 将数据集 D中图像xi及其对应的多标记向量 yi送入分类器 C中训练twarm轮, 优化二元交叉熵损失函数 LBCE和标记语义 正则化项 LLSR来更新C; 步骤5. 在迭代筛选阶段, 调整模型状态, 记录每个标记在调整过程中规范化损失以检 测噪声; 将规范化损失由大到小进行排序, 并取排序的前 R%的标记对应的样本为噪声样本 集Dnoisy, 剩余为干净样本集 Dclean; 步骤 6. 使用分类器 C依次为噪声样本集 Dnoisy中每个样本 xi进行类别预测, 并取预测 类别概率值大于伪标记阈值 μ的类别作样本 xi的伪标记, 构成伪标记集 Dpseudo; 步骤 7. 统计数据集{ Dpseudo, Dclean}中标记的共现概 率; 步骤 8. 将数据集{ Dpseudo, Dclean}重新输入分类器 C, 优化二元交叉熵损失函数 LBCE和 标记关系正则化项 LLRR来微调分类 器C; 步骤 9. 判断当前迭代次数 τ是否达到最大迭代次数 T; 若当前迭代次数 τ未达到最大 迭代次数 T, 则返回步骤5继续迭代训练, τ= τ +1; 否则, 转到步骤10; 步骤10. 模型训练完成之后, 得到能够在多标记数据集上完成可靠分类性能的分类器 C; 利用训练好的分类 器C执行分类预测任务。 2.根据权利要求1所述的鲁棒噪声 多标记图像学习方法, 其特 征在于, 所述分类器 C由一个预训练的残差网络构成的特征提取器和一个 Transformer 解码器 组成; 其中, 残差网络最后的全连接层替换为 解码器, 解码器中删除了自注意力模块; 残差网络用于提取图像特 征, 并将图像映射到高维特 征空间; Transformer 解码器对映射后的特 征进行预测概率, 映射到 l维的预测概 率向量。 3.根据权利要求1所述的鲁棒噪声 多标记图像学习方法, 其特 征在于, 所述步骤5具体为: 步骤 5.1. 定义循环筛 选轮数tc和最大循环轮数 Tc, 初始化tc=0; 步骤 5.2. 按照如下公式调整模型的学习率 η, 以改变模型的拟合状态: η=ηmin+1/2(ηmax-ηmin)(1+cos( (tc·π )/Tc)); 其中,ηmin和ηmax分别表示模型训练中最小学习率和最大 学习率; 步骤 5.3. 将数据集 D中每个样本( xi,yi)输入分类器 C, 得到类别预测结果 =C(xi); 利用二元交叉熵损失函数 LBCE, 计算每个样本(xi,yi)的预测结果 的损失值 Ii;权 利 要 求 书 1/3 页 2 CN 115331065 A 2Ii={I1 i, I 2 i ,..., I l i}; 其中,I m i表示在当前轮时第 i个图像对应于第 m类的损失值, m∈{1,l}; 步骤 5.4. 记录当前 tc轮每个样本的损失值 Ii, 计算当前 tc轮全部样本的平均损失 ; 步骤 5.5. 通过步骤5.4得到的 Ii和 , 计算当前 tc轮每个样本的规范化损失值 ; =Ii- ; 在迭代筛 选阶段, 优化 二元交叉熵损失函数 LBCE来更新分类 器C; 步骤 5.6. 判断当前循环筛选轮数 tc是否达到最大循环轮数 Tc; 若tc未达到最大循环 轮数Tc, 则返回步骤5.2, 继续循环训练, tc=tc+1; 否则, 转到步骤5.7; 步骤 5.7. 计算每个样本在所有循环中的平均损失 ; ; 则样本xi对应的标记 平均损失为 ; 表示第i个图像对应于第 m类的平均损失值, m∈{1,l}; 根据标记的平均损失由大到小排序, 并取排序的前 R%标记对应的样本作为噪声样本集 Dnoisy, 剩余为干净样本集 Dclean。 4.根据权利要求1所述的鲁棒噪声 多标记图像学习方法, 其特 征在于, 所述步骤6中, 伪标记集 Dpseudo的计算过程如下: 对输入的图像 xi, 经过分类器C得到新的预测结果 =C(xi); 其中, , 表示第i个图像对应于第 m类的预测结果; 按照如下公式生成伪标记: yi= [ ≥μ]; 其中, [·]为指示函数, 如果条件成立, 则 伪标记为1, 反 之, 伪标记为0; 对噪声样本集 Dnoisy中所有样本运用上述方法, 得到伪标记集 Dpseudo。 5.根据权利要求1所述的鲁棒噪声 多标记图像学习方法, 其特 征在于, 所述步骤7中, 标记共现概 率矩阵Lp(m, n)由以下公式计算: Lp(m, n)=Nm,n /Nsum; 其中,Lp即为包含所统计标记之间共现概 率的矩阵; Nm,n表示m类和n类标记的共现次数, Nsum为所有标记的全部共现次数, m,n∈{1,l}。 6.根据权利要求5所述的鲁棒噪声 多标记图像学习方法, 其特 征在于, 在训练阶段, 优化 二元交叉熵损失函数 LBCE以及正则化项 LLSR和LLRR来更新分类 器C; 二元交叉熵损失函数 LBCE的具体形式为:权 利 要 求 书 2/3 页 3 CN 115331065 A 3

PDF文档 专利 基于解码器迭代筛选的鲁棒噪声多标签图像学习方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于解码器迭代筛选的鲁棒噪声多标签图像学习方法 第 1 页 专利 基于解码器迭代筛选的鲁棒噪声多标签图像学习方法 第 2 页 专利 基于解码器迭代筛选的鲁棒噪声多标签图像学习方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:04:15上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。