- 0
- 0
- 约1.23万字
- 约 19页
- 2026-01-22 发布于重庆
- 举报
(19)国家知识产权局
(12)发明专利
(10)授权公告号CN113283327B(45)授权公告日2025.01.10
(21)申请号202110535422.9
(22)申请日2021.05.17
(65)同一申请的已公布的文献号申请公布号CN113283327A
(43)申请公布日2021.08.20
(73)专利权人多益网络有限公司
地址510000广东省广州市萝岗区伴河路
90号自编一栋305房
专利权人广州多益网络股份有限公司广东利为网络科技有限公司
(72)发明人徐波
(74)专利代理机构北京集佳知识产权代理有限公司11227
专利代理师刘晓娟
(51)Int.CI.
GO6V20/40(2022.01)
GO6V20/62(2022.01)
GO6V40/16(2022.01)
GO6V30/413(2022.01)
GO6V30/19(2022.01)
GO6V10/74(2022.01)G10L15/26(2006.01)G10L17/14(2013.01)
(56)对比文件
A,2016.07.06A,2020.08.11105744292111526382
A,2016.07.06A,2020.08.11
105744292
111526382
审查员阚子雄
权利要求书2页说明书6页附图4页
(54)发明名称
一种视频文本生成方法、装置、设备及存储介质
(57)摘要
CN113283327B本申请提供了一种视频文本生成方法、装置、设备及存储介质,其中方法包括:获取待处理的视频数据,并提取视频数据中的关键帧图像数据和音频数据;根据关键帧图像数据和音频数据,通过预设的光学字符识别模型和语音识别模型,得到视频数据的文字信息;根据关键帧图像数据和音频数据,通过预设的生物特征识别模型,得到视频数据的人物信息;根据文字信息和人物信息,生成视频数据对应的视频文本。本申请通过融合生物特征识别、光学字符识别、语音识别技术使得生成的视频文本包含更全面的图像和语音、文字等内容信息,可极大提高用户对
CN113283327B
获取待处理的视频数据,并提取视频数据中的关
获取待处理的视频数据,并提取视频数据中的关键帧图像数据和音频数据
根据关键帧图像数据和音频数据,通过预设的光
学字符识别模型和语音识别模型,得到视频数据
的文字信息
根据关键帧图像数据和音频数据,通过预设的生物特征识别模型,得到视频数据的人物信息
根据文字信息和人物信息,生成视频数据对应的视频文本
101
102
103
104
CN113283327B权利要求书1/2页
2
1.一种视频文本生成方法,其特征在于,包括:
获取待处理的视频数据,并提取所述视频数据中的关键帧图像数据和音频数据;
根据所述关键帧图像数据和音频数据,通过预设的光学字符识别模型和语音识别模型,得到所述视频数据的文字信息;
根据所述关键帧图像数据,通过人脸识别模型,识别所述关键帧图像数据中的人脸特征,以根据所述人脸特征进行特征比对得到所述视频数据的图像人物信息;
根据所述音频数据,通过声纹识别模型,识别所述音频数据中的声纹特征,以根据所述声纹特征进行特征比对得到所述视频数据的语音人物信息;
根据图像文字信息的时间信息和语音文字信息的时间信息,确定第一对应关系,其中,所述第一对应关系为所述图像文字信息和所述语音文字信息的对应关系;
根据所述图像人物信息的时间信息和所述语音人物信息的时间信息,确定第二对应关系,其中,所述第二对应关系为所述图像人物信息和所述语音人物信息的对应关系;
基于所述第一对应关系和所述第二对应关系,对图像人物信息、图像文字信息和语音人物信息、语音文字信息进行汇总,得到视频文本。
2.根据权利要求1所述的一种视频文本生成方法,其特征在于,根据所述关键帧图像数据和音频数据,通过预设的光学字符识别模型和语音识别模型,得到所述视频数据的文字信息具体包括:
根据所述关键帧图像数据,通过光学字符识别模型识别所述关键帧图像数据中的文字字符,得到所述视频数据的图像文字信息;
根据所述音频数据,通过语音识别模型,将所述音频数据转换为文本数据,得到所述视频数据的语音文字信息。
3.根据权利要求1所述的一种视频文本生成方法,其特征在于,
您可能关注的文档
- CN112903545B 一种多通道传感系统和检测方法 (华侨大学).docx
- CN112906394B 地址识别方法、装置、设备和存储介质 (北京字节跳动网络技术有限公司).docx
- CN112934823B 一种物料智能识别自动清洗整理设备及方法 (古田县庄鑫菌业有限公司).docx
- CN112948662B 一种推荐方法、装置和用于推荐的装置 (北京搜狗科技发展有限公司).docx
- CN113011292B 一种光学传感像素电路及其驱动方法、传感器和显示面板 (京东方科技集团股份有限公司).docx
- CN113011603B 模型参数更新方法、装置、设备、存储介质及程序产品 (深圳前海微众银行股份有限公司).docx
- CN113032568B 一种基于bert+bilstm+crf并融合句型分析的查询意图识别方法 (同方知网(北京)技术有限公司).docx
- CN113052517B 取货机器人、取货方法、计算机可读存储介质 (北京极智嘉科技股份有限公司).docx
- CN113141255B 用于在处理设备、对应的处理设备和计算机程序产品中对数据执行密码运算的方法 (意法半导体股份有限公司).docx
- CN113200179B 具有真空冷却站的深拉包装机和真空冷却热包装产品的方法 (莫迪维克西普哈根牧勒股份及两合公司).docx
最近下载
- 2025年最新部编版五年级语文下册1-8单元教材分析(全册) .pdf VIP
- 山东省烟台龙口市(五四制)2024-2025学年六年级上学期期末考试历史试题.pdf VIP
- 青少年编程:NOIP CSP 初赛篇.pdf VIP
- 2024年河南豫能控股股份有限公司招聘笔试真题汇总.docx VIP
- 小学科学教育三年规划实施方案.docx VIP
- 视频会议摄像机安装指导书.docx VIP
- 波束匹配-5G网络自适应技术.doc VIP
- 2025年河南豫能控股股份有限公司招聘考试笔试试题(含答案).docx VIP
- 急性心肌梗死PBL教学指南:临床思维培养与典型案例实战解析.pptx VIP
- iso9000实战大全iso9001教材iso9000培训讲义iso9000简述.pptx VIP
原创力文档

文档评论(0)