专利 视频处理方法、装置及计算机可读存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211268922.1 (22)申请日 2022.10.17 (71)申请人珠海普罗米修斯视觉技术有限公司地址 519000 广东省珠海市香洲区旅游路 168号(梅溪商业广场B座)云溪谷数字产业园5层5 -196(集中办公区) (72)发明人张煜　江宇骄　孙伟　邵志兢　 (74)专利代理机构深圳紫藤知识产权代理有限公司 44570 专利代理师秦志权 (51)Int.Cl. G06V 20/40(2022.01) G06V 20/64(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01)G06T 7/80(2017.01) G06N 3/04(2006.01) G06N 3/08(2006.01) H04N 13/275(2018.01) H04N 13/282(2018.01) (54)发明名称视频处理方法、装置及计算机可读存储介质 (57)摘要本申请公开了一种视频处理方法、装置及计算机可读存储介质，方法通过获取目标对象多视角同步视频，并对多视角同步视频中每一视频帧进行关节点识别；根据关节点识别结果确定每一视频帧中的目标对象三维模型参数，三维模型参数包括姿态参数、体型参数、顶点位移数据以及纹理数据；基于多个视频帧以及对应的三维模型参数构成的训练数据集训练以姿态参数为变量的条件变分自编码器；获取目标姿态参数，并基于条件变分自编码器和目标姿态参数生成驱动视频。该方法可以提升对视频中角色进行驱动的效果。权利要求书2页说明书15页附图2页 CN 115497029 A 2022.12.20 CN 115497029 A 1.一种视频处理方法，其特征在于，所述方法包括：获取目标对象多视角同步视频，并对所述多视角同步视频中每一视频帧进行关节点识别；根据关节点识别结果确定每一视频帧中的所述目标对象三维模型参数，所述三维模型参数包括姿态参数、体型参数、顶点位移数据以及纹理数据；基于多个视频帧以及对应的三维模型参数构成的训练数据集训练以姿态参数为变量的条件变分自编码器；获取目标姿态参数，并基于所述条件变分自编码器和所述目标姿态参数生成驱动视频。 2.根据权利要求1所述的方法，其特征在于，所述对所述多视角同步视频中每一视频帧进行关节点识别，包括：对所述多视角同步视频的每一视角对应的视频进行切帧，得到多帧视频帧；对每一视频帧进行关节点检测，得到每一视频帧的关节点识别结果。 3.根据权利要求2所述的方法，其特征在于，所述对每一视频帧进行关节点检测，得到每一视频帧的关节点识别结果，包括：对每一视频帧进行姿态检测，得到每一视频帧的二维关节点数据；对所述二维关节点数据进行三角化处理，得到每一视频帧的三维关节点数据；根据所述二维关节点数据与所述三维关节点数据确定每一视频帧的关节点识别结果。 4.根据权利要求1所述的方法，其特征在于，所述根据关节点识别结果确定每一视频帧中的所述目标对象三维模型参数，包括：根据每一视频帧的关节点识别结果拟合所述目标对象的三维模型，得到所述三维模型的体型参数和姿态参数；将所述三维模型的顶点进行位移拟合，得到所述三维模型的顶点位移数据；根据每一视频帧确定所述三维模型的纹理数据，并根据所述体型参数、所述姿态参数、所述顶点位移数据和所述纹理数据确定所述目标对象三维模型参数。 5.根据权利要求4所述的方法，其特征在于，所述将所述三维模型的顶点进行位移拟合，得到所述三维模型的顶点位移数据，包括：确定所述三维模型中每一顶点对应的目标关节点，所述目标关节点为与顶点距离最近的关节点；计算每一顶点与对应的目标关节点之间的位移数据，得到所述三维模型的顶点位移数据。 6.根据权利要求1所述的方法，其特征在于，所述基于多个视频帧以及对应的三维模型参数构成的训练数据集训练以姿态参数为变量的条件变分自编码器，包括：将三维模型的姿态参数为输入，得到条件变分自编码器输出的输出模型数据；基于所述输出模型数据与所述三维模型参数中所述体型参数、顶点位移数据以及纹理数据的差异对所述条件变分自编码器的参数进行调整。 7.根据权利要求1所述的方法，其特征在于，所述获取目标姿态参数，并基于所述条件变分自编码器和所述目标姿态参数生成驱动视频，包括：接收输入的目标姿态参数；权　利　要　求　书 1/2 页 2 CN 115497029 A 2将所述目标姿态参数输入至所述条件变分自编码器中，得到输出的目标模型数据；对所述目标模型数据进行渲染，得到多视角同步图像；根据所述多视角同步图像生成驱动视频。 8.一种视频处理装置，其特征在于，所述装置包括：获取单元，用于获取目标对象多视角同步视频，并对所述多视角同步视频中每一视频帧进行关节点识别；确定单元，用于根据关节点识别结果确定每一视频帧中的所述目标对象三维模型参数，所述三维模型参数包括姿态参数、体型参数、顶点位移数据以及纹理数据；训练单元，用于基于多个视频帧以及对应的三维模型参数构成的训练数据集训练以姿态参数为变量的条件变分自编码器；生成单元，用于获取目标姿态参数，并基于所述条件变分自编码器和所述目标姿态参数生成驱动视频。 9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求 1至7中任一项所述的视频处理方法中的步骤。 10.一种计算机设备，其特征在于，包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1 至7中任一项所述的视频处理方法中的步骤。 11.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现权利要求1至7中任一项所述的视频处理方法中的步骤。权　利　要　求　书 2/2 页 3 CN 115497029 A 3

专利 视频处理方法、装置及计算机可读存储介质

专利视频处理方法、装置及计算机可读存储介质