- 3
- 0
- 约9.12千字
- 约 10页
- 2023-08-23 发布于四川
- 举报
本发明涉及一种基于知识驱动的网页表格抽取与结构化处理方法,属于计算机科学中的信息处理技术领域。该方法包括:解析Web网页内容数据,判断是否存在表格;若存在表格,提取所有表格的内容并存储;获取表格后,对每一行数据和每一列数据进行解析,判断是实体还是属性;对表格项内容进行匹配,得到每一个表项对应的标签;根据表项标签,获取行列标签;计算行列置信度,判断表头实体属性;以及生成包括实体、属性、以及属性值的结构化三元组。本发明通过融合规则与自然语言处理技术,基于知识库对网页表格数据进行抽取解析,使得结构化后
(19)国家知识产权局
(12)发明专利申请
(10)申请公布号 CN 116628301 A
(43)申请公布日 2023.08.22
(21)申请号 202310420021.8
(22)申请日 2023.04.19
(71)申请人 北京理工大学
地址 100081
原创力文档

文档评论(0)