一种基于知识驱动的网页表格抽取与结构化处理方法.pdfVIP

下载本文档

3
0
约9.12千字
约 10页
2023-08-23 发布于四川
举报

一种基于知识驱动的网页表格抽取与结构化处理方法.pdf

本发明涉及一种基于知识驱动的网页表格抽取与结构化处理方法，属于计算机科学中的信息处理技术领域。该方法包括：解析Web网页内容数据，判断是否存在表格；若存在表格，提取所有表格的内容并存储；获取表格后，对每一行数据和每一列数据进行解析，判断是实体还是属性；对表格项内容进行匹配，得到每一个表项对应的标签；根据表项标签，获取行列标签；计算行列置信度，判断表头实体属性；以及生成包括实体、属性、以及属性值的结构化三元组。本发明通过融合规则与自然语言处理技术，基于知识库对网页表格数据进行抽取解析，使得结构化后

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 116628301 A (43)申请公布日 2023.08.22 (21)申请号 202310420021.8 (22)申请日 2023.04.19 (71)申请人北京理工大学地址 100081

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

一种基于知识驱动的网页表格抽取与结构化处理方法.pdfVIP

一种基于知识驱动的网页表格抽取与结构化处理方法.pdf

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档