(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211190736.0
(22)申请日 2022.09.28
(71)申请人 云南大学
地址 650091 云南省昆明市翠湖北路2号
(72)发明人 武丽雯 唐培耕 姚绍文
(74)专利代理 机构 成都行之智 信知识产权代理
有限公司 5125 6
专利代理师 温利平
(51)Int.Cl.
G06V 10/764(2022.01)
G06V 10/82(2022.01)
G06V 10/44(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于图卷积神经网络和类激活映射的图像
多标签分类方法
(57)摘要
本发明公开了一种基于图卷积神经网络和
类激活映射的图像多 标签分类方法, 通过根据图
像样本的标签向量集合生 成标签关系图, 通过图
卷积神经网络获取各个标签的嵌入表 示, 据此构
建得到分类器, 在图像多标签分类模型中, 对输
入图像的全局特征通过反向传播得到局部特征,
分别对全局特征和局部特征采用分类器估计得
到输入图像的估计概率向量, 最后融合得到输入
图像的最终估计概率向量。 本发 明通过捕获标签
和图像语义信息之间的相关性, 解决了多标签图
像问题中标签依赖关系构建困难和图像语义获
取不完整的问题, 提高了图像多标签分类的性
能。
权利要求书3页 说明书9页 附图2页
CN 115457332 A
2022.12.09
CN 115457332 A
1.一种基于 图卷积神经网络和类激活映射的图像多标签分类方法, 其特征在于, 包括
以下步骤:
S1: 根据实际需要获取N幅图像样本并归一化至预设尺寸, 获取每幅图像样本的标签向
量Yn=[yn,1,yn,2,…,yn,M], yn,m用于表示第n幅图像样本是否属于第m个标签对应的类别, ym
=1表示属于, ym=0表示不属于, m=1,2, …,M, M表示标签数量;
S2: 采用如下 方法生成标签关系图:
S2.1: 根据N幅图像样本的标签向量, 对于每个标签m统计yn,m=1的图像样本数量am, 然
后将M个标签两两组成标签对, 对于每个标签对(m,m ′)统计yn,m=1且yn,m′=1的图像样本数
量bm,m′, 其中m′=1,2,…,M且m′≠m; 然后采用如下公式计算得到标签m和标签m ′的共现概
率P(m′|m):
S2.2: 对于每 个标签分别采用词嵌入算法获取对应的文本向量;
S2.3: 将每个标签的文本向量作为标签关系图的节点, 如果共现概率P(m ′|m)大于预设
阈值, 则添加从标签m至标签m ′的有向边, 否则不添加边, 从而 得到标签 关系图; 记标签关系
图的邻接矩阵为A, 由每 个标签文本向量作为行向量构成的节点特 征矩阵为H;
S3: 构建图像多标签分类模型, 包括图像特征提取模块、 全局池化层、 卷积层、 sigmod
层、 局部特征筛选模块、 反向传播模块、 上采样模块、 图卷积神经网络、 分类模块、 最大池化
层和softmax层, 其中:
图像特征提取模块用于对输入图像I0和反向传播得到的K个局部特征图像Ik进行图像
特征提取, k=1,2, …,K, 得到大小为H ×W×D的特征图, 将输入图像I0的特征图F0发送至全
局池化层和反向传播模块, 将K个局部特 征图像Ik的特征图Fk发送至全局池化层;
全局池化层用于对接收的特征图Fk′分别进行全局池化, k ′=0,1,2, …,K, 得到D维的特
征向量Gk′并发送至分类模块, 并将特 征向量G0发送至卷积层;
卷积层用于对特征向量G0采用1×1×M的卷积核进行卷积操作, 得到M维的特征向量C0
并发送至sigmod层;
Sigmod层用于对接收的特征向量C0采用sigmod函数进行处理, 将特征向量C0中每个元
素值转化至范围[0,1]得到预测概率向量
其中
表示输入图像I0属于
第m类的预测概 率, 然后将预测概 率向量
发送至局部特 征筛选模块;
局部特征筛选模块用于对预测概率向量
中的M个预测概率进行从大
到小进行排序, 选择前K个预测 概率
mk表示筛选出 的第k个预测 概率对应的类别, 然后
将K个预测概 率
发送至反向传播网络;
反向传播网络用于在接收到的K个预测概率
和特征图F0后, 分别根据类别mk的预测
概率
进行反向传播, 得到类别mk的类激活图Ak并发送至上采样模块, 反向传播公式如下:权 利 要 求 书 1/3 页
2
CN 115457332 A
2其中, D表示特 征图F0的通道数, ReLU()表示relu函数,
表示特征图F0中第d个通道的
特征数据,
表示针对特 征数据
的权重, 其计算公式如下:
H、 W分别表示特征图F0的高和宽,
表示特征图F0第d个通道在坐标(h,w)处的特
征数据;
上采样模块用于对接收到的K个类激活图Ak分别进行上采样至输入图像I0的大小, 得到
局部特征图像Ik并发送至图像特 征提取模块;
图卷积神经网络用于对标签关系图进行特征学习得到各个标签的嵌入表示向量, 其中
图卷积神经网络的输入为节点特征矩阵H, 将标签关系图的邻接矩阵A作为图卷积神经网络
的相关系数矩阵初始值; 将每个标签的嵌入表示向量作为列向量, 构建得到大小为D ×M的
标签嵌入表 示矩阵E, 其中D表 示嵌入表示向量的维度; 将标签嵌入表示矩阵E作为分类器输
出至分类模块;
分类模块用于接收K+1个特征 向量Gk′, 采用分类器E分别对每个特征 向量Gk′进行分类,
得到特征向量Gk′对应的估计概 率向量
分类的表达式如下:
其中,
表示根据特征向量Gk′估计得到的输入图像I0属于第m个标签类别的概率, 将
得到的K+1个估计概 率向量
发送至最大池化层。
最大池化层用于对接收到的K+1个估计概率向量
进行最大池
化, 得到估计概 率向量
并发送给softmax层;
softmax层用于采用softmax函数对估计概率向量
进行处理, 得到估
计标签向量
其中
表示估计得到的输入图像I0属于第m个标签类别的
概率;
S4: 将步骤S1中的各幅图像样本作为输入, 对应的标签向量Yn=[yn,1,yn,2,…,yn,M]作为
期望输出, 对步骤S3构建的图像多标签分类模型进行训练;
S5: 对于待分类图像, 将其归一化至预设尺寸, 然后输入训练好的图像多标签分类模
型, 从得到的估计标签向量中筛 选出概率大于预设阈值的标签, 作为待分类图像的标签。
2.根据权利要求1所述的图像多标签分类方法, 其特征在于, 所述步骤S4中图像多标签
分类模型训练时损失函数采用如下 方法计算:
对于分类模块所输出的输入图像I0和K个局部特征图像Ik的特征向量Gk′对应的估计概权 利 要 求 书 2/3 页
3
CN 115457332 A
3
专利 基于图卷积神经网络和类激活映射的图像多标签分类方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:04:30上传分享