一种基于知识驱动的网页表格抽取与结构化处理方法.pdfVIP

  • 3
  • 0
  • 约9.12千字
  • 约 10页
  • 2023-08-23 发布于四川
  • 举报

一种基于知识驱动的网页表格抽取与结构化处理方法.pdf

本发明涉及一种基于知识驱动的网页表格抽取与结构化处理方法,属于计算机科学中的信息处理技术领域。该方法包括:解析Web网页内容数据,判断是否存在表格;若存在表格,提取所有表格的内容并存储;获取表格后,对每一行数据和每一列数据进行解析,判断是实体还是属性;对表格项内容进行匹配,得到每一个表项对应的标签;根据表项标签,获取行列标签;计算行列置信度,判断表头实体属性;以及生成包括实体、属性、以及属性值的结构化三元组。本发明通过融合规则与自然语言处理技术,基于知识库对网页表格数据进行抽取解析,使得结构化后

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 116628301 A (43)申请公布日 2023.08.22 (21)申请号 202310420021.8 (22)申请日 2023.04.19 (71)申请人 北京理工大学 地址 100081

文档评论(0)

1亿VIP精品文档

相关文档