(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211171503.6
(22)申请日 2022.09.26
(71)申请人 天津理工大 学
地址 300384 天津市西青区 宾水西道391号
(72)发明人 高赞 吴天奇 薛彦兵 温显斌
陈胜勇
(74)专利代理 机构 天津佳盟知识产权代理有限
公司 120 02
专利代理师 林玉慧
(51)Int.Cl.
G06V 40/20(2022.01)
G06V 20/40(2022.01)
G06V 10/40(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)G06V 10/764(2022.01)
G06V 10/766(2022.01)
G06N 3/04(2006.01)
(54)发明名称
视频动作检测方法、 装置、 设备和计算机可
读存储介质
(57)摘要
本发明属于计算机视觉和模式识别技术领
域, 具体地说, 涉及基于锚自由和关键段激活的
视频动作检测方法、 装置、 设备和计算机可读存
储介质。 基于锚自由和关键段激活的视频动作检
测方法包括: 视频特征提取; 搭建基于锚自由和
关键段激活的视频动作检测网络模 型; 构建基于
锚自由和关键段激活的视频动作检测的损失函
数; 基于锚自由和关键段激活的视频动作检测模
型。 本发明对长视频的动作进行定位并进行动作
识别, 创新性地提出基于关键段激活的视频动作
检测网络模 型, 完成在有监督的情况下对长视频
中动作的定位和分类, 解决了传统 时序动作检测
方法在长视频中边界定位模糊, 动作分类不准确
的问题, 提升了动作定位和识别效果。 本发明尤
适用于公共安全领域。
权利要求书4页 说明书8页 附图2页
CN 115497165 A
2022.12.20
CN 115497165 A
1.一种基于锚自由和关键段激活的视频动作检测方法, 其特 征在于, 包括以下步骤:
1)对原始视频进行 特征编码提取;
1‑1)使用在Kinetics数据集训练好的双流I3D模型提取得到1D双流特征作为模型输
入。 提取初始特 征序列为
其中rT表示特 征时间维度, C为特 征通道维度;
1‑2)所得特征序列F具有相同的C但是rT随机长度, 因此将rT统一补0至2304长度, 得到
补0特征
此时T为定 长;
2)补0特征F0由不同长度的视频得来, 因此包含许多实际长度较短的特征, 长度较短 的
视频所包含的视频信息贫乏, 根据以上特点, 随机选取两段视频其初始特征分别为
若二者初始特征长度rT均小于α, α 为人为 设定的超参数, 则对两视
频对应的补0特征序列
和
进行mixup数据增强, 得到更新的特征
和
其中若两视频初始视频特征不均小于α则 对应的Fini=F0i, Fini=
F0j, mixup后得到更新的
和
作为输入输送到后续模块中;
3)利用1D卷积和滑窗局部Transformer作为映射函数, 将所有经过或未经过mixup数据
增强的特征Fin先后进行两次1D映射和两次滑窗局部Transformer映射, 得到信息进一步融
合的视频 特征序列Fl;
4)搭建金字塔模 块, 利用滑窗局部Transformer对特征序列Fl进行下采样得到时间维度
多粒度特征Fl、 Fl+1、 Fl+2……Fl+n并将之组合为金字塔特征组, 以Fl作为底层特征与其他粒度
特征组合为金字塔特 征组, 其中l表示 最底层, n 为除底层外金字塔层数;
4‑1)构建金字塔模块, 将特征Fl作为金字塔底部特征, 利用多个下采样滑窗局部
Transformer合并时间维度, 并浓缩通道维度信息, 得到多级金字塔特征Fl、 Fl+1、 Fl+2……Fl
+n, l表示最底层, n代 表除去金字塔底层的层数;
4‑2)对金字塔模块中的每一层特征进行层规范化处理, 得到数据分布更稳定的Fl、 Fl+1、
Fl+2……Fl+n多级金字塔特 征;
5)构建边界注意力模块, 将金字塔特征中的每一层特征输入边界注意力模块, 得到边
界权重矩阵, 利用边界权 重矩阵突出视频中动作边界信息, 弱化 其他信息;
6)构建动作激活模块, 利用三元损失函数将视频中动作的开始节点特征与动作内部节
点特征拉近, 同时使之与开始节点左侧即动作开始前 的背景特征拉远; 在动作的结束节点
相同的操作, 利用三元损失函数将结束节点特征与结束节点左侧即动作内部的特征拉近,
同时使之与结束节点右侧即动作结束后的背景特征拉远; 通过以上操作, 使模型在处理视
频过程中逐渐具 备突出动作片段的能力;
7)搭建动作分类分支模块和边界回归分支模块, 金字塔特征组经过边界注意力模块和
动作激活模块处理后分别输入动作分类分支模块和边界回归分支模块, 两 分支模块分别输
出金字塔特征中每一层每个时间点的动作类别和到动作开始结束时间点的距离(ct, st,
et), t为金字塔特征 中某一层某一时间点, ct为该时间点所有动作类别概率, st、 et分别表示
该时间点到动作开始时间的距离和到动作结束时间的距离, 通过简单计算则可得到每一时
间点对应动作的开始时间和结束时间。
2.根据权利要求1所述的基于锚自由和关键段激活 的视频动作检测方法, 其特征在于,权 利 要 求 书 1/4 页
2
CN 115497165 A
2所述步骤2具体步骤如下:
2‑1)根据数据集先验知识, 人为设定α, 对于随机选择的初始特征长度均小于α 的两视
频补0特征序列F0i和F0j的mixup数据增强操作如下: Fini=λF0i+(1‑λ )F0j, Finj=λF0j+(1‑λ )
F0i, 其中λ∈[0, 1]是概率值, λ~Beta(γ, γ), 即λ服从参数为γ的Beta分布; 若随机选择的
两视频初始特征不均小于α, 则对其补 0特征做如下操作: Fini=F0i, Fini=F0j, Fini和Finj则为
后续模块的输入;
2‑2)将输入特征进行mixup后, 相应的对训练过程也进行相同的数据增强操作, 具体步
骤如下:
Li= λ*L(y(Fini), ylj)+(1‑λ )*L(y(Fini), yli)
Lj= λ*L(y(Finj), yli)+(1‑λ )*L(y(Finj), ylj)
Lfin=(Li+Lj)/2
其中y(Fini)表示特征Fini所对应的模型输出, ylj表示特征Finj所对应视频的标签; y
(Finj)表示特征Finj所对应的模型输出, yli表示特征Fini所对应视频的标签, L为模型原始损
失函数, Li、 Lj分别表示特征Fini对应模型的总损失函数和特征Finj对应模型的总损失函数,
Lfin为最终损失函数。
3.根据权利要求1所述的基于锚自由和关键段激活 的视频动作检测方法, 其特征在于,
所述步骤5具体步骤如下:
5‑1)取金字塔 特征底层特征Fl为例, Fl为形如
的一维特征序列, 首先利用1D卷积将
通道维度C压缩至C/16, 得到更新的
以防止过大的通道维度影响后续边界特征
的表征能力;
5‑2)沿特征Fl时间维度取[0: T ‑1], 即取特征前T ‑1个节点, 将之标记为
沿特征时间
维度取[1: T], 即取特征后T ‑1个节点, 将之标记为
计算得到边界权重矩阵
其中E(·)为1D卷积, 其功能为将压缩的通道维度C /16延展至原大小C;
5‑3)利用权重矩阵来激活Fl的边界信息: Fl*=Fl+Fl*Ab, 并将Fl*保存为新的金字塔特
征。
4.根据权利要求1所述的基于锚自由和关键段激活 的视频动作检测方法, 其特征在于,
所述步骤6具体步骤如下:
6‑1)将步骤5处理后的金字塔特征的每一层均作为候选特征, 提取数据集标注的动作
起止点时间, 按照金字塔下采样比例依次找到金字塔特征各层级 特征所对应的动作起止时
间点特征
其中
表示金字塔特征中某一层真实动作开始时间点所对应 的特征,
表示金字塔 特征中某一层真实动作结束时间点所对应的特征; 取
后一时间点特征标记为
ψlin表示其在动作开始点附近且在动作片段内部, 取
前一时间点特征ψlout表示其在动作
开始点附近且在动作片段外部, 取
后一时间点特征ξlout表示其在动作结束点附近且在动
作片段外 部, 取
前一时间点特 征ξlin表示其在动作结束点附近且在动作片段内部;
6‑2)以
分别作为锚点, 以ψlin和 ξlin作为正样例, 以ψlout和 ξlout作为负样例, 利用
三元损失函数拉近
和 ψlin的距离, 拉远
和 ψlout的距离, 拉近
和ξlin的距离, 拉远
和
ξlout的距离:权 利 要 求 书 2/4 页
3
CN 115497165 A
3
专利 视频动作检测方法、装置、设备和计算机可读存储介质
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:04:33上传分享