- 59
- 0
- 约1.16万字
- 约 11页
- 2023-06-20 发布于四川
- 举报
本发明公开了一种PDF文档提取的表格信息转换为结构化知识的方法,其特点采用PDF文档表格知识抽取算法框架构建知识图谱,其表格信息的提取和转换具体包括:将PDF页转化为图片并使用图像处理算法寻找所有闭合矩形框;对闭合矩形框区域进行位置分析以及OCR识别得出完整表格信息;基于表格信息进行跨页表合并以及表名称检测;预定义产品名检测规则以及属性关键字将表头分为第一依据及第二依据;根据依据项位置将表格划分为三类并利用不同规则进行知识抽取,得到头尾实体以及关系的三元组。本发明与现有技术相比只需提供原始的PD
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 CN 113326797 A
(43)申请公布日 2021.08.31
(21)申请号 202110673369.9
(22)申请日 2021.06.17
(71)申请人 上海电气集团股份有限公司
原创力文档

文档评论(0)