- 1
- 0
- 约3.07万字
- 约 27页
- 2024-04-17 发布于四川
- 举报
本申请的实施例公开了一种训练视频文本分类模型的方法、视频文本分类方法和装置,涉及人工智能技术领域,具体为深度学习、图像处理技术领域。具体实现方案为:从目标视频中提取各帧图像;获取各帧图像的光学字符识别结果,光学字符识别结果包括至少一个文本框;采用聚合特征对各帧图像的光学字符识别结果中的文本框进行聚合,得到对应聚合特征的至少一个文本框集合;确定至少一个文本框集合中每个文本框集合的类别,将每个文本框集合的类别作为文本框集合中每个文本框内的文本的类别。本申请的实施例提供的视频文本分类方法,每个文本框集
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号CN112036373A
(43)申请公布日2020.12.04
(21)申请号202011056257.0
(22)申请日2020.09.30
(71)申请人北京
原创力文档

文档评论(0)