PDF表格文字识别方法和装置.pdfVIP

  • 4
  • 0
  • 约1.66万字
  • 约 18页
  • 2023-07-06 发布于四川
  • 举报
本发明公开了一种PDF表格文字识别方法和装置。所述方法包括:读取PDF表格中的文字和直线;取出一个待匹配的模板;根据模板定义的关键字及其关键字单元格,寻找PDF表格中的关键字及其关键字单元格,确定模板与PDF表格是否匹配,若匹配成功则进入下一步;根据模板定义的关键字单元格与其它的值单元格、混合单元格和组单元格之间的拓扑关系,寻找并提取PDF表格中的值单元格、混合单元格和组单元格的信息,得到识别结果;如此匹配所有模板,合并处理匹配成功的每一个模板的识别结果,并消除其中重复的部分。本发明实现了对表格

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 113837068 A (43)申请公布日 2021.12.24 (21)申请号 202111111476.9 (22)申请日 2021.09.23 (71)申请人 纬衡浩建科技(深圳)有限公司

文档评论(0)

1亿VIP精品文档

相关文档