CN109325201B 实体关系数据的生成方法、装置、设备及存储介质 (北京百度网讯科技有限公司).docxVIP

  • 0
  • 0
  • 约2.97万字
  • 约 50页
  • 2026-01-22 发布于重庆
  • 举报

CN109325201B 实体关系数据的生成方法、装置、设备及存储介质 (北京百度网讯科技有限公司).docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN109325201B(45)授权公告日2025.07.15

(21)申请号201810928930.1

(22)申请日2018.08.15

(65)同一申请的已公布的文献号申请公布号CN109325201A

(43)申请公布日2019.02.12

(73)专利权人北京百度网讯科技有限公司

地址100085北京市海淀区上地十街10号

百度大厦2层

(72)发明人黄昉李双婕于员洋史亚冰梁海金张扬朱勇

(74)专利代理机构北京品源专利代理有限公司

11332

专利代理师孟金喆

(51)Int.CI.

GO6F16/958(2019.01)

(56)对比文件

CN104516949A,2015.04.15

周安林.基于Web的实体信息提取和搜索研究.《中国优秀硕士学位论文全文数据库信息科技辑》.2016,(第3期),正文第39-69页.

审查员余佩玉

权利要求书4页说明书15页附图7页

(54)发明名称

获取与目标网页对应的网页源码数据在网页源码数据中,识别

获取与目标网页对应的网页源码数据

在网页源码数据中,识别出至少一个键值块,其中,键值块中包括至少一个键值对

在网页源码数据中,识别出与至少一个键值块对应的主体值

根据键值块以及与键值块对应的主体值,生成与目标网页对应的实体关系数据

S110

S120

S130

S140

(57)摘要

CN109325201B本发明实施例公开了一种实体关系数据的生成方法、装置、设备及存储介质。所述方法包括:获取与目标网页对应的网页源码数据;在所述网页源码数据中,识别出至少一个键值块,其中,所述键值块中包括至少一个键值对;在所述网页源码数据中,识别出与所述至少一个键值块对应的主体值;根据所述键值块以及与所述键值块对应的主体值,生成与所述目标网页对应的实体关系数据。通过本发明的技术方案,能够提高

CN109325201B

CN109325201B权利要求书1/4页

2

1.一种实体关系数据的生成方法,其特征在于,包括:

获取与目标网页对应的网页源码数据;

在所述网页源码数据中,识别出至少一个键值块,其中,所述键值块中包括至少一个键值对;

在所述网页源码数据中,识别出与所述至少一个键值块对应的主体值;

分别将所述键值块中包括的各个键值对,与所述键值块对应的主体值进行组合,构造三元组数据;

将所述三元组数据中包括的键名作为主客体关系值,与键名对应的键值作为客体值,以生成所述实体关系数据,其中,所述实体关系数据包括主体值、实体关系值和客体值;

其中,在所述网页源码数据中,识别出至少一个键值块包括:通过对所述网页源码数据进行解析,识别至少一个键值对,将所述键值对按照预设划分规则进行划分,得到至少一个键值块;

所述在所述网页源码数据中,识别出与所述至少一个键值块对应的主体值,包括:

如果确定当前处理的目标键值块为主键值块,且所述网页源码数据中包括满足第一标签条件的实体页节点,则按照实体页评分规则,判断所述目标网页是否为实体页;

若是,则将与所述实体页节点对应的文本数据作为所述目标键值块的主体值;

其中,所述主键值块为与所述网页源码数据对应的至少一个键值块中包含键值对数量最多的一个键值块。

2.根据权利要求1所述的方法,其特征在于,在所述网页源码数据中,识别出至少一个键值块,包括:

采用基础解析工具对所述网页源码数据进行数据解析,得到至少一个基础键值对加入键值对集合中;

对所述基础键值对进行键值对扩展,得到至少一个扩展键值对加入所述键值对集合

中;

对所述键值对集合中包括的键值对进行合并处理,得到所述至少一个键值块。

3.根据权利要求2所述的方法,其特征在于,对所述基础键值对进行键值对扩展,得到至少一个扩展键值对加入所述键值对集合中,包括:

在所述网页源码数据中,获取与所述基础键值对匹配的基础节点的基础xpath,并查找xpath与所述基础xpath相同的扩展节点;获取与所述扩展节点对应的文本数据作为所述扩展键值对;和/或

在所述网页源码数据中,获取与所述基础键值对匹配的基础节点的基础html标签;根据所述基础html标签,确定至少一个扩展html标签,并在所述网页源码数据中,

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档