- 0
- 0
- 约2.97万字
- 约 50页
- 2026-01-22 发布于重庆
- 举报
(19)国家知识产权局
(12)发明专利
(10)授权公告号CN109325201B(45)授权公告日2025.07.15
(21)申请号201810928930.1
(22)申请日2018.08.15
(65)同一申请的已公布的文献号申请公布号CN109325201A
(43)申请公布日2019.02.12
(73)专利权人北京百度网讯科技有限公司
地址100085北京市海淀区上地十街10号
百度大厦2层
(72)发明人黄昉李双婕于员洋史亚冰梁海金张扬朱勇
(74)专利代理机构北京品源专利代理有限公司
11332
专利代理师孟金喆
(51)Int.CI.
GO6F16/958(2019.01)
(56)对比文件
CN104516949A,2015.04.15
周安林.基于Web的实体信息提取和搜索研究.《中国优秀硕士学位论文全文数据库信息科技辑》.2016,(第3期),正文第39-69页.
审查员余佩玉
权利要求书4页说明书15页附图7页
(54)发明名称
获取与目标网页对应的网页源码数据在网页源码数据中,识别
获取与目标网页对应的网页源码数据
在网页源码数据中,识别出至少一个键值块,其中,键值块中包括至少一个键值对
在网页源码数据中,识别出与至少一个键值块对应的主体值
根据键值块以及与键值块对应的主体值,生成与目标网页对应的实体关系数据
S110
S120
S130
S140
(57)摘要
CN109325201B本发明实施例公开了一种实体关系数据的生成方法、装置、设备及存储介质。所述方法包括:获取与目标网页对应的网页源码数据;在所述网页源码数据中,识别出至少一个键值块,其中,所述键值块中包括至少一个键值对;在所述网页源码数据中,识别出与所述至少一个键值块对应的主体值;根据所述键值块以及与所述键值块对应的主体值,生成与所述目标网页对应的实体关系数据。通过本发明的技术方案,能够提高
CN109325201B
CN109325201B权利要求书1/4页
2
1.一种实体关系数据的生成方法,其特征在于,包括:
获取与目标网页对应的网页源码数据;
在所述网页源码数据中,识别出至少一个键值块,其中,所述键值块中包括至少一个键值对;
在所述网页源码数据中,识别出与所述至少一个键值块对应的主体值;
分别将所述键值块中包括的各个键值对,与所述键值块对应的主体值进行组合,构造三元组数据;
将所述三元组数据中包括的键名作为主客体关系值,与键名对应的键值作为客体值,以生成所述实体关系数据,其中,所述实体关系数据包括主体值、实体关系值和客体值;
其中,在所述网页源码数据中,识别出至少一个键值块包括:通过对所述网页源码数据进行解析,识别至少一个键值对,将所述键值对按照预设划分规则进行划分,得到至少一个键值块;
所述在所述网页源码数据中,识别出与所述至少一个键值块对应的主体值,包括:
如果确定当前处理的目标键值块为主键值块,且所述网页源码数据中包括满足第一标签条件的实体页节点,则按照实体页评分规则,判断所述目标网页是否为实体页;
若是,则将与所述实体页节点对应的文本数据作为所述目标键值块的主体值;
其中,所述主键值块为与所述网页源码数据对应的至少一个键值块中包含键值对数量最多的一个键值块。
2.根据权利要求1所述的方法,其特征在于,在所述网页源码数据中,识别出至少一个键值块,包括:
采用基础解析工具对所述网页源码数据进行数据解析,得到至少一个基础键值对加入键值对集合中;
对所述基础键值对进行键值对扩展,得到至少一个扩展键值对加入所述键值对集合
中;
对所述键值对集合中包括的键值对进行合并处理,得到所述至少一个键值块。
3.根据权利要求2所述的方法,其特征在于,对所述基础键值对进行键值对扩展,得到至少一个扩展键值对加入所述键值对集合中,包括:
在所述网页源码数据中,获取与所述基础键值对匹配的基础节点的基础xpath,并查找xpath与所述基础xpath相同的扩展节点;获取与所述扩展节点对应的文本数据作为所述扩展键值对;和/或
在所述网页源码数据中,获取与所述基础键值对匹配的基础节点的基础html标签;根据所述基础html标签,确定至少一个扩展html标签,并在所述网页源码数据中,
您可能关注的文档
- CN107249720B 液体的纯化方法、药液或清洗液的制造方法、过滤介质及过滤装置 (东京应化工业株式会社).docx
- CN107944499B 一种针对前景背景同时建模的背景检测方法 (上海童慧科技股份有限公司).docx
- CN108244709B 一种利用磁性检测烟油的雾化装置及其检测方法 (深圳市新宜康科技股份有限公司).docx
- CN108336100B 一种阵列基板及其制备方法、显示面板、显示装置 (京东方科技集团股份有限公司).docx
- CN108465388B 一种固液混合设备及利用该设备的混合方法 (深圳市尚水智能股份有限公司).docx
- CN108510355B 语音交互订餐的实现方法及相关装置 (拉扎斯网络科技(上海)有限公司).docx
- CN108602844B 金属组合物及其制备方法 (普拉奥有限责任公司).docx
- CN108807446B 一种光学指纹芯片的封装结构以及封装方法 (苏州晶方半导体科技股份有限公司).docx
- CN108830449B 航拍无人机选取方法及系统 (广州亿航智能技术有限公司).docx
- CN109060630B 一种渗流侵蚀试验系统及方法 (黄劲松).docx
- 浙江省温州市2024-2025学年七年级上学期语文期末考查卷.docx
- 精品解析:北京市建华实验学校2024-2025学年七年级下学期期中英语试题(原卷版).docx
- 精品解析:北京市通州区2024-2025学年七年级下学期期末考试英语试卷(原卷版).docx
- 精品解析:北京市回民学校2024-2025学年九年级上学期期中语文试题(解析版).docx
- 精品解析:北京市海淀区2025-2026学年九年级上学期期末语文试题(解析版).docx
- 精品解析:北京市东城区汇文中学2025-2026学年八年级上学期期中语文试题(原卷版).docx
- 精品解析:北京市回民学校2024-2025学年九年级上学期期中语文试题(原卷版).docx
- 精品解析:2024-2025学年广东省广州市从化区街口镇中心小学人教版五年级上册期中测试数学试卷(解析版).docx
- 精品解析:北京市通州区2024-2025学年七年级下学期期末考试英语试卷(解析版).docx
- 精品解析:北京市建华实验学校2024-2025学年七年级下学期期中英语试题(解析版).docx
最近下载
- 山东省枣庄市薛城区、山亭区2024-2025学年高一上学期期末考试物理试题.pdf VIP
- 2024年重组水蛭素单克隆抗体项目融资计划书.docx
- 急性心肌梗死患者护理查房PPT课件.pptx VIP
- 2025-2026学年广东省湛江一中七年级(上)期中历史试卷(含答案).docx
- 国开电大3980《管理心理学》期末笔试题库及答案.pdf VIP
- 丝杆垂直布局选型计算实例.doc
- 2025年医学分析-胸脊神经背根节射频镇痛技术.pptx VIP
- 医疗机构医学影像科建设与管理指南(2025 版).docx VIP
- 福建省漳州市2024—2025学年八年级上学期期末教学质量检测数学北师大版A卷【含答案解析】.docx VIP
- 一种馄饨皮及馄饨皮的制备方法.pdf VIP
原创力文档

文档评论(0)