一种PDF中表格信息的抽取方法和系统.pdfVIP

下载本文档

7
0
约1.78万字
约 17页
2023-05-17 发布于四川
举报

一种PDF中表格信息的抽取方法和系统.pdf

本发明涉及深度学习技术领域，提供一种PDF中表格信息的抽取方法和系统。方法包括：获取PDF文件，并识别文件中包括表格的图像页；分割图像页得到多个表格单元，输入运行表格结构识别模型，得到目标序列；将表格单元的文本识别结果整合至根据目标序列中，得到html代码形式的表格抽取结果。本发明通过基于图像分割得到的表格单元进行表格结构框架识别，即采用多示例学习训练得到的模型进行表格结构框架识别，能够更为有效、精准地识别抽取PDF中的表格信息；同时，基于html序列的表格结构框架输出格式更为契合多示例学习训练

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 114821613 A (43)申请公布日 2022.07.29 (21)申请号 202210342716.4 (22)申请日 2022.03.31 (71)申请人灵犀量子（北京）医疗科技有限公司地

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

一种PDF中表格信息的抽取方法和系统.pdfVIP

一种PDF中表格信息的抽取方法和系统.pdf

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档