- 6
- 0
- 约1.62万字
- 约 14页
- 2023-11-15 发布于四川
- 举报
本申请公开了一种文档信息抽取方法及装置,方法包括:从第一文档的纯文本、表格和图片中分别提取不同模态的原始特征,同时获得第二文档;对不同模态的原始特征进行多模态融合,获得不同模态的第一融合特征;基于第二文档进行实体识别,获得实体识别结果;利用实体识别结果、不同模态的第一融合特征提取实体之间的关系;利用实体识别结果和关系提取结果构建多模态知识图谱,并将多模态知识图谱可视化。通过对多种模态数据的特征进行融合,能够有效地从文本、表格和图片等多种形式的数据中提取信息,提高了文档信息提取的覆盖率和精度。
(19)国家知识产权局
(12)发明专利申请
(10)申请公布号 CN 117056705 A
(43)申请公布日 2023.11.14
(21)申请号 202311024214.8
(22)申请日 2023.08.14
(71)申请人 浙江中烟工业有限责任公司
地址
原创力文档

文档评论(0)