一种PDF内容提取方法、装置及设备.pdfVIP

  • 0
  • 0
  • 约2.04万字
  • 约 20页
  • 2023-07-05 发布于四川
  • 举报
本发明公开了一种PDF内容提取方法,通过接收待处理PDF文件;根据所述待处理PDF文件确定PDF正文信息;根据所述PDF正文信息得到PDF内容提取信息。本发明通过对所述待处理PDF文件进行预处理,去除了PDF文件的页眉、页脚及页码等位于PDF文件边缘的格式信息,仅留下所述PDF正文信息,用于后续识别,相比与现有技术,缩小了后续程序要识别的图像大小,同时排除了起辅助阅读,但却不承载内容信息的页面边缘元素,仅留下与内容相关的PDF正文信息,大大提升了后续程序对内容的识别和提取效率,提升了后需内容识别

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 113807158 A (43)申请公布日 2021.12.17 (21)申请号 202011406023.4 (22)申请日 2020.12.04 (71)申请人 四川医枢科技股份有限公司

文档评论(0)

1亿VIP精品文档

相关文档