(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211223332.7
(22)申请日 2022.10.08
(71)申请人 哈尔滨工业大 学
地址 150001 黑龙江省哈尔滨市南岗区西
大直街92号
申请人 黑龙江广播电视台
(72)发明人 姚鸿勋 王力凝 岳晓光 杨浩森
侯云峰 李莹 张秀丽
(74)专利代理 机构 哈尔滨龙 科专利代理有限公
司 23206
专利代理师 王新雨
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 10/764(2022.01)
G06V 10/74(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种针对多事件实例视频的时序事件检测
方法
(57)摘要
本发明公开了一种针对多事件实例视频的
时序事件检测方法, 所述方法包括如下步骤: 一、
获取视频数据; 二、 构建视频特征提取模型; 三:
使用视频特征提取模型进行特征提取, 得到视频
帧特征向量组; 四: 对视频帧特征向量所对应的
标注文件进行修正, 得到帧级标注与片段级标
注; 五: 构建事件边界预测模型; 六: 构建多实例
判别模型; 七: 构建视频片段交互模型; 八: 训练
事件边界预测模 型、 多实例判别模 型和视频片段
交互模型, 得到联合模型; 九: 调用联合模型对视
频进行目标事件检测。 本发明通过视频特征建模
以及对比学习策略提升了时序事件检测的准确
性, 解决了当前复杂视频场景(多实例问题)易误
判、 漏判问题, 能够大幅度地提高时序事件检测
的性能。
权利要求书3页 说明书6页 附图3页
CN 115512272 A
2022.12.23
CN 115512272 A
1.一种针对多事件实例视频的时序事件检测方法, 其特征在于所述方法包括如下步
骤:
步骤一、 获取视频数据, 所述视频数据包含各视频及各视频所包含的目标事件的开始
时间与结束时间的标注文件;
步骤二、 构建基于动作识别的视频 特征提取模型;
步骤三: 对步骤一获取的视频数据进行视频预处理, 随后使用视频特征提取模型进行
特征提取, 得到 视频帧特 征向量组F;
步骤四: 对步骤三得到的视频帧特征向量组F所对应的标注文件进行修正, 将标注文件
与特征向量组上的位置对齐, 得到适用于特 征向量的帧级标注Gb与片段级标注Gs;
步骤五: 构建以编码器 ‑解码器结构为主干的事 件边界预测模型;
步骤六: 构建基于对比学习选择的多实例判别模型;
步骤七: 构建视频片段交 互模型;
步骤八: 使用步骤四得到的标注文件联合训练事件边界预测模型、 多实例判别模型和
视频片段交互模型, 得到事件边界预测模型、 多实例判别模型和视频片段交互模型 的联合
模型;
步骤九: 调用步骤八训练好的联合模型对视频进行目标事 件检测。
2.根据权利要求1所述的针对多事件实例视频的时序事件检测方法, 其特征在于所述
步骤五的具体步骤如下:
步骤五一、 获得输入数据, 事件边界预测模型的输入来源于步骤三中获得的视频帧特
征向量组F;
步骤五二、 构建编码器 ‑解码器的深度学习网络结构, 向编码器提供视频特征向量组F,
编码器获取视频特征向量组F后, 对其中的特征向量之 间进行信息交互, 生 成视频特征向量
组F的全局语义信息Fenc; 解码器的输入有两项, 分别为视频特征向量组F与全局语义信息
Fenc, 通过全局语义信息Fenc更新视频特征向量组F, 产生对事件的开始与结尾更有表征意义
的Fenc;
步骤五三、 构建一个边界分类器, 边界分类器通过解码器的输出信息Fdec对视频事件的
边界进行 预测, 得到边界置信度Cb。
3.根据权利要求1所述的针对多事件实例视频的时序事件检测方法, 其特征在于所述
步骤六的具体步骤如下:
步骤六一、 进行边界采样:
a、 划分事 件实例的边界区域, 给定事 件实例
分别为事件开始时间与
结束时间, 则事 件开始和结束区域定义 为:
其中,
n表示第n个事 件实例, δ 是控制区域大小的超参数;权 利 要 求 书 1/3 页
2
CN 115512272 A
2b、 对步骤三得到的视频帧特征向量组F进行采样构成正负例样本对, 在同实例的开始
区域和结束区域分别采样出特征向量
组成正样本对PairP, 在不同实例的边界区
域开始区域和结束区域分别采样出 特征向量
组成负样本对PairN;
步 骤 六 二 、构 建 对 比 学 习 方 案 ,构 建 多 实 例 判 别 模 型 的 优 化 目 标 为
其中, f()为相似度计算 函数,
为度量距离;
步骤六三、 利用优化目标更新边界区域特征向量的嵌入表示, 使相同实例的嵌入表示
相接近, 不同实例的嵌入表示相远离, 将更新的特征向量组命名为 实例级特征向量组, 实例
级特征向量组包括事 件开始向量组Fs、 事件结束向量组Fe。
4.根据权利要求1所述的针对多事件实例视频的时序事件检测方法, 其特征在于所述
步骤七的具体步骤如下:
步骤七一、 视频片段交互模型的输入是视频帧特征向量组F, 在视频时序 上进行滑动窗
口操作生成不同尺度的视频片段;
步骤七二、 对于步骤七一生成的多尺度片段, 从步骤三得到的视频帧特征向量组F通过
差值采样统一到相同长度, 获得多尺度的片段级特征Pf; 构建一个深度学习模型对片段级
特征进行信息交 互;
步骤七三、 构建一个段落分类器为每个片段计算其中包含的目标事件或背景的置信度
Cs。
5.根据权利要求4所述的针对多事件实例视频的时序事件检测方法, 其特征在于所述
步骤七一中, 滑动窗口操作的具体步骤如下:
a、 设置一系列不同尺度的窗口组
其中D是窗口数量, w 为窗口大小;
b、 根据不同窗口大小设置不同步长, 对于每 个窗口, 其 步长为
c、 根据窗口大小和滑窗, 在视频时序上进行滑动窗口操作生成不同尺度的视频片段。
6.根据权利要求1所述的针对多事件实例视频的时序事件检测方法, 其特征在于所述
步骤八的具体训练步骤如下:
步骤八一、 使用帧级标注文件训练事件边界预测模型, 制定损失函数1: L1=L(Cb,Gb),
并计算损失 1;
步骤八二、 使用片段级标注文件训练事件视频片段交互模型, 制定损失函数2: L2=L
(Cs,Gs), 并计算损失2;
步 骤 八 三 、使 用对比 学 习策略 训练 多 实 例 判 别 模 型 , 制定 损失 函 数 3 :
并计算损失3;
步骤八四、 计算累积的损失1、 损失2、 损失3, 得到总体损失为Lall=λ1L1+λ2L2+λ3L3, 其中
{ λ1, λ2, λ3}用于控制三个模型的训练权 重, 通过梯度下降算法对上述 三个模型进行训练。
7.根据权利要求1所述的针对多事件实例视频的时序事件检测方法, 其特征在于所述
步骤九的具体步骤如下:
对于视频中的任意视频段, 事件边界预测模型、 多实例判别模型、 视频片段交互模型分
别产生边界置信度、 实例 置信度与片段级置信度, 步骤八训练好的联合模型使用这三者的权 利 要 求 书 2/3 页
3
CN 115512272 A
3
专利 一种针对多事件实例视频的时序事件检测方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:04:22上传分享