一种PDF内容提取方法、装置及设备.pdfVIP

下载本文档

0
0
约2.04万字
约 20页
2023-07-05 发布于四川
举报

一种PDF内容提取方法、装置及设备.pdf

本发明公开了一种PDF内容提取方法，通过接收待处理PDF文件；根据所述待处理PDF文件确定PDF正文信息；根据所述PDF正文信息得到PDF内容提取信息。本发明通过对所述待处理PDF文件进行预处理，去除了PDF文件的页眉、页脚及页码等位于PDF文件边缘的格式信息，仅留下所述PDF正文信息，用于后续识别，相比与现有技术，缩小了后续程序要识别的图像大小，同时排除了起辅助阅读，但却不承载内容信息的页面边缘元素，仅留下与内容相关的PDF正文信息，大大提升了后续程序对内容的识别和提取效率，提升了后需内容识别

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 113807158 A (43)申请公布日 2021.12.17 (21)申请号 202011406023.4 (22)申请日 2020.12.04 (71)申请人四川医枢科技股份有限公司

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

一种PDF内容提取方法、装置及设备.pdfVIP

一种PDF内容提取方法、装置及设备.pdf

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档