CN119763023A 视频文字位置定位方法、系统、介质及装置 (蜜度科技股份有限公司).docxVIP

  • 1
  • 0
  • 约2.52万字
  • 约 38页
  • 2026-06-22 发布于山西
  • 举报

CN119763023A 视频文字位置定位方法、系统、介质及装置 (蜜度科技股份有限公司).docx

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN119763023A

(43)申请公布日2025.04.04

(21)申请号202510258584.0

(22)申请日2025.03.06

(71)申请人蜜度科技股份有限公司

地址201204上海市浦东新区中国(上海)

自由贸易试验区张衡路198弄10号301AB室

(72)发明人刘益东孔欧刘玉龙

(74)专利代理机构上海光华专利事务所(普通合伙)31219

专利代理师庞红芳

(51)Int.Cl.

G06V20/40(2022.01)

G06V20/62(2022.01)

G06V10/24(2022.01)

G06V10/774(2022.01)

G06N3/06(2006.01)

G06N3/048(2023.01)

权利要求书2页说明书13页附图8页

(54)发明名称

视频文字位置定位方法、系统、介质及装置

(57)摘要

CN119763023A本申请提供一种视频文字位置定位方法、系统、介质及装置,包括:获取包含文字的参考帧和待定位视频帧;提取参考帧的跨模态特征;提取待定位视频帧的帧特征矩阵;基于跨模态特征和帧特征矩阵构建输入特征矩阵,输入特征矩阵包括跨模态特征和帧特征矩阵和位置向量;将输入特征矩阵输入大语言模型,获取输出特征矩

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档