专利 视频动作检测方法、装置、设备和计算机可读存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211171503.6 (22)申请日 2022.09.26 (71)申请人天津理工大学地址 300384 天津市西青区宾水西道391号 (72)发明人高赞　吴天奇　薛彦兵　温显斌　陈胜勇　 (74)专利代理机构天津佳盟知识产权代理有限公司 120 02 专利代理师林玉慧 (51)Int.Cl. G06V 40/20(2022.01) G06V 20/40(2022.01) G06V 10/40(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06V 10/764(2022.01) G06V 10/766(2022.01) G06N 3/04(2006.01) (54)发明名称视频动作检测方法、装置、设备和计算机可读存储介质 (57)摘要本发明属于计算机视觉和模式识别技术领域，具体地说，涉及基于锚自由和关键段激活的视频动作检测方法、装置、设备和计算机可读存储介质。基于锚自由和关键段激活的视频动作检测方法包括：视频特征提取；搭建基于锚自由和关键段激活的视频动作检测网络模型；构建基于锚自由和关键段激活的视频动作检测的损失函数；基于锚自由和关键段激活的视频动作检测模型。本发明对长视频的动作进行定位并进行动作识别，创新性地提出基于关键段激活的视频动作检测网络模型，完成在有监督的情况下对长视频中动作的定位和分类，解决了传统时序动作检测方法在长视频中边界定位模糊，动作分类不准确的问题，提升了动作定位和识别效果。本发明尤适用于公共安全领域。权利要求书4页说明书8页附图2页 CN 115497165 A 2022.12.20 CN 115497165 A 1.一种基于锚自由和关键段激活的视频动作检测方法，其特征在于，包括以下步骤： 1)对原始视频进行特征编码提取； 1‑1)使用在Kinetics数据集训练好的双流I3D模型提取得到1D双流特征作为模型输入。提取初始特征序列为其中rT表示特征时间维度， C为特征通道维度； 1‑2)所得特征序列F具有相同的C但是rT随机长度，因此将rT统一补0至2304长度，得到补0特征此时T为定长； 2)补0特征F0由不同长度的视频得来，因此包含许多实际长度较短的特征，长度较短的视频所包含的视频信息贫乏，根据以上特点，随机选取两段视频其初始特征分别为若二者初始特征长度rT均小于α， α 为人为设定的超参数，则对两视频对应的补0特征序列和进行mixup数据增强，得到更新的特征和其中若两视频初始视频特征不均小于α则对应的Fini＝F0i， Fini＝ F0j， mixup后得到更新的和作为输入输送到后续模块中； 3)利用1D卷积和滑窗局部Transformer作为映射函数，将所有经过或未经过mixup数据增强的特征Fin先后进行两次1D映射和两次滑窗局部Transformer映射，得到信息进一步融合的视频特征序列Fl； 4)搭建金字塔模块，利用滑窗局部Transformer对特征序列Fl进行下采样得到时间维度多粒度特征Fl、 Fl+1、 Fl+2……Fl+n并将之组合为金字塔特征组，以Fl作为底层特征与其他粒度特征组合为金字塔特征组，其中l表示最底层， n 为除底层外金字塔层数； 4‑1)构建金字塔模块，将特征Fl作为金字塔底部特征，利用多个下采样滑窗局部 Transformer合并时间维度，并浓缩通道维度信息，得到多级金字塔特征Fl、 Fl+1、 Fl+2……Fl +n， l表示最底层， n代表除去金字塔底层的层数； 4‑2)对金字塔模块中的每一层特征进行层规范化处理，得到数据分布更稳定的Fl、 Fl+1、 Fl+2……Fl+n多级金字塔特征； 5)构建边界注意力模块，将金字塔特征中的每一层特征输入边界注意力模块，得到边界权重矩阵，利用边界权重矩阵突出视频中动作边界信息，弱化其他信息； 6)构建动作激活模块，利用三元损失函数将视频中动作的开始节点特征与动作内部节点特征拉近，同时使之与开始节点左侧即动作开始前的背景特征拉远；在动作的结束节点相同的操作，利用三元损失函数将结束节点特征与结束节点左侧即动作内部的特征拉近，同时使之与结束节点右侧即动作结束后的背景特征拉远；通过以上操作，使模型在处理视频过程中逐渐具备突出动作片段的能力； 7)搭建动作分类分支模块和边界回归分支模块，金字塔特征组经过边界注意力模块和动作激活模块处理后分别输入动作分类分支模块和边界回归分支模块，两分支模块分别输出金字塔特征中每一层每个时间点的动作类别和到动作开始结束时间点的距离(ct， st， et)， t为金字塔特征中某一层某一时间点， ct为该时间点所有动作类别概率， st、 et分别表示该时间点到动作开始时间的距离和到动作结束时间的距离，通过简单计算则可得到每一时间点对应动作的开始时间和结束时间。 2.根据权利要求1所述的基于锚自由和关键段激活的视频动作检测方法，其特征在于，权　利　要　求　书 1/4 页 2 CN 115497165 A 2所述步骤2具体步骤如下： 2‑1)根据数据集先验知识，人为设定α，对于随机选择的初始特征长度均小于α 的两视频补0特征序列F0i和F0j的mixup数据增强操作如下： Fini＝λF0i+(1‑λ )F0j， Finj＝λF0j+(1‑λ ) F0i，其中λ∈[0， 1]是概率值， λ～Beta(γ， γ)，即λ服从参数为γ的Beta分布；若随机选择的两视频初始特征不均小于α，则对其补 0特征做如下操作： Fini＝F0i， Fini＝F0j， Fini和Finj则为后续模块的输入； 2‑2)将输入特征进行mixup后，相应的对训练过程也进行相同的数据增强操作，具体步骤如下： Li＝ λ*L(y(Fini)， ylj)+(1‑λ )*L(y(Fini)， yli) Lj＝ λ*L(y(Finj)， yli)+(1‑λ )*L(y(Finj)， ylj) Lfin＝(Li+Lj)/2 其中y(Fini)表示特征Fini所对应的模型输出， ylj表示特征Finj所对应视频的标签； y (Finj)表示特征Finj所对应的模型输出， yli表示特征Fini所对应视频的标签， L为模型原始损失函数， Li、 Lj分别表示特征Fini对应模型的总损失函数和特征Finj对应模型的总损失函数， Lfin为最终损失函数。 3.根据权利要求1所述的基于锚自由和关键段激活的视频动作检测方法，其特征在于，所述步骤5具体步骤如下： 5‑1)取金字塔特征底层特征Fl为例， Fl为形如的一维特征序列，首先利用1D卷积将通道维度C压缩至C/16，得到更新的以防止过大的通道维度影响后续边界特征的表征能力； 5‑2)沿特征Fl时间维度取[0： T ‑1]，即取特征前T ‑1个节点，将之标记为沿特征时间维度取[1： T]，即取特征后T ‑1个节点，将之标记为计算得到边界权重矩阵其中E(·)为1D卷积，其功能为将压缩的通道维度C /16延展至原大小C； 5‑3)利用权重矩阵来激活Fl的边界信息： Fl*＝Fl+Fl*Ab，并将Fl*保存为新的金字塔特征。 4.根据权利要求1所述的基于锚自由和关键段激活的视频动作检测方法，其特征在于，所述步骤6具体步骤如下： 6‑1)将步骤5处理后的金字塔特征的每一层均作为候选特征，提取数据集标注的动作起止点时间，按照金字塔下采样比例依次找到金字塔特征各层级特征所对应的动作起止时间点特征其中表示金字塔特征中某一层真实动作开始时间点所对应的特征，表示金字塔特征中某一层真实动作结束时间点所对应的特征；取后一时间点特征标记为 ψlin表示其在动作开始点附近且在动作片段内部，取前一时间点特征ψlout表示其在动作开始点附近且在动作片段外部，取后一时间点特征ξlout表示其在动作结束点附近且在动作片段外部，取前一时间点特征ξlin表示其在动作结束点附近且在动作片段内部； 6‑2)以分别作为锚点，以ψlin和 ξlin作为正样例，以ψlout和 ξlout作为负样例，利用三元损失函数拉近和 ψlin的距离，拉远和 ψlout的距离，拉近和ξlin的距离，拉远和 ξlout的距离：权　利　要　求　书 2/4 页 3 CN 115497165 A 3

专利 视频动作检测方法、装置、设备和计算机可读存储介质

专利视频动作检测方法、装置、设备和计算机可读存储介质