CN113283327B 一种视频文本生成方法、装置、设备及存储介质 (多益网络有限公司).docxVIP

  • 0
  • 0
  • 约1.23万字
  • 约 19页
  • 2026-01-22 发布于重庆
  • 举报

CN113283327B 一种视频文本生成方法、装置、设备及存储介质 (多益网络有限公司).docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN113283327B(45)授权公告日2025.01.10

(21)申请号202110535422.9

(22)申请日2021.05.17

(65)同一申请的已公布的文献号申请公布号CN113283327A

(43)申请公布日2021.08.20

(73)专利权人多益网络有限公司

地址510000广东省广州市萝岗区伴河路

90号自编一栋305房

专利权人广州多益网络股份有限公司广东利为网络科技有限公司

(72)发明人徐波

(74)专利代理机构北京集佳知识产权代理有限公司11227

专利代理师刘晓娟

(51)Int.CI.

GO6V20/40(2022.01)

GO6V20/62(2022.01)

GO6V40/16(2022.01)

GO6V30/413(2022.01)

GO6V30/19(2022.01)

GO6V10/74(2022.01)G10L15/26(2006.01)G10L17/14(2013.01)

(56)对比文件

A,2016.07.06A,2020.08.11105744292111526382

A,2016.07.06A,2020.08.11

105744292

111526382

审查员阚子雄

权利要求书2页说明书6页附图4页

(54)发明名称

一种视频文本生成方法、装置、设备及存储介质

(57)摘要

CN113283327B本申请提供了一种视频文本生成方法、装置、设备及存储介质,其中方法包括:获取待处理的视频数据,并提取视频数据中的关键帧图像数据和音频数据;根据关键帧图像数据和音频数据,通过预设的光学字符识别模型和语音识别模型,得到视频数据的文字信息;根据关键帧图像数据和音频数据,通过预设的生物特征识别模型,得到视频数据的人物信息;根据文字信息和人物信息,生成视频数据对应的视频文本。本申请通过融合生物特征识别、光学字符识别、语音识别技术使得生成的视频文本包含更全面的图像和语音、文字等内容信息,可极大提高用户对

CN113283327B

获取待处理的视频数据,并提取视频数据中的关

获取待处理的视频数据,并提取视频数据中的关键帧图像数据和音频数据

根据关键帧图像数据和音频数据,通过预设的光

学字符识别模型和语音识别模型,得到视频数据

的文字信息

根据关键帧图像数据和音频数据,通过预设的生物特征识别模型,得到视频数据的人物信息

根据文字信息和人物信息,生成视频数据对应的视频文本

101

102

103

104

CN113283327B权利要求书1/2页

2

1.一种视频文本生成方法,其特征在于,包括:

获取待处理的视频数据,并提取所述视频数据中的关键帧图像数据和音频数据;

根据所述关键帧图像数据和音频数据,通过预设的光学字符识别模型和语音识别模型,得到所述视频数据的文字信息;

根据所述关键帧图像数据,通过人脸识别模型,识别所述关键帧图像数据中的人脸特征,以根据所述人脸特征进行特征比对得到所述视频数据的图像人物信息;

根据所述音频数据,通过声纹识别模型,识别所述音频数据中的声纹特征,以根据所述声纹特征进行特征比对得到所述视频数据的语音人物信息;

根据图像文字信息的时间信息和语音文字信息的时间信息,确定第一对应关系,其中,所述第一对应关系为所述图像文字信息和所述语音文字信息的对应关系;

根据所述图像人物信息的时间信息和所述语音人物信息的时间信息,确定第二对应关系,其中,所述第二对应关系为所述图像人物信息和所述语音人物信息的对应关系;

基于所述第一对应关系和所述第二对应关系,对图像人物信息、图像文字信息和语音人物信息、语音文字信息进行汇总,得到视频文本。

2.根据权利要求1所述的一种视频文本生成方法,其特征在于,根据所述关键帧图像数据和音频数据,通过预设的光学字符识别模型和语音识别模型,得到所述视频数据的文字信息具体包括:

根据所述关键帧图像数据,通过光学字符识别模型识别所述关键帧图像数据中的文字字符,得到所述视频数据的图像文字信息;

根据所述音频数据,通过语音识别模型,将所述音频数据转换为文本数据,得到所述视频数据的语音文字信息。

3.根据权利要求1所述的一种视频文本生成方法,其特征在于,

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档