一种PDF中表格信息的抽取方法和系统.pdfVIP

  • 7
  • 0
  • 约1.78万字
  • 约 17页
  • 2023-05-17 发布于四川
  • 举报

一种PDF中表格信息的抽取方法和系统.pdf

本发明涉及深度学习技术领域,提供一种PDF中表格信息的抽取方法和系统。方法包括:获取PDF文件,并识别文件中包括表格的图像页;分割图像页得到多个表格单元,输入运行表格结构识别模型,得到目标序列;将表格单元的文本识别结果整合至根据目标序列中,得到html代码形式的表格抽取结果。本发明通过基于图像分割得到的表格单元进行表格结构框架识别,即采用多示例学习训练得到的模型进行表格结构框架识别,能够更为有效、精准地识别抽取PDF中的表格信息;同时,基于html序列的表格结构框架输出格式更为契合多示例学习训练

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 114821613 A (43)申请公布日 2022.07.29 (21)申请号 202210342716.4 (22)申请日 2022.03.31 (71)申请人 灵犀量子(北京)医疗科技有限公司 地

文档评论(0)

1亿VIP精品文档

相关文档