- 4
- 0
- 约1.66万字
- 约 18页
- 2023-07-06 发布于四川
- 举报
本发明公开了一种PDF表格文字识别方法和装置。所述方法包括:读取PDF表格中的文字和直线;取出一个待匹配的模板;根据模板定义的关键字及其关键字单元格,寻找PDF表格中的关键字及其关键字单元格,确定模板与PDF表格是否匹配,若匹配成功则进入下一步;根据模板定义的关键字单元格与其它的值单元格、混合单元格和组单元格之间的拓扑关系,寻找并提取PDF表格中的值单元格、混合单元格和组单元格的信息,得到识别结果;如此匹配所有模板,合并处理匹配成功的每一个模板的识别结果,并消除其中重复的部分。本发明实现了对表格
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 CN 113837068 A
(43)申请公布日 2021.12.24
(21)申请号 202111111476.9
(22)申请日 2021.09.23
(71)申请人 纬衡浩建科技(深圳)有限公司
原创力文档

文档评论(0)