- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大规模知识图谱技术.pdf
大规模知识图谱技术.pdf
知识图谱实例
谷歌 知识图谱 (Google Knowledge Graph)
百度 “知心”
搜狗 “知立方”
知识图谱的构建
知识图谱的数据来源
mainly for extraction graphs(抽取图谱)
百科类数据
质量较高
更新速度慢
提取实体、属性、关系
结构化数据
方法:构建面 向站点的包装器
质量较高
更新速度慢
提取实体、属性、关系,属性部分加强
搜索日志
质量较差
提高图谱覆盖率
提取属性
从抽取图谱到知识图谱
实体对齐 (Object Alignment)
目的: 发现具有不同标识却代表真实世界中同一对象的那些实体, 并将这些实体归并为一个具有全局唯一标识的实体
对象, 然后添加到知识图谱中
主要方法:聚类
相似度度量规则
1. 具有相同描述的实体可能 代表同一实体(字符相似)
2. 具有相同属性 - 值的实体可能代表相同对象(属性相似)
3. 具有相同邻居的实体可能指向同一个对象(结构相似)
准确率无法保证,需人工审核
知识图谱模式构建
本体
概 念
概念层次
属性
属性值类型
关系
关系定义域概念集
关系值域概念集
图谱模式
领域 (domain)
类别 (type)
主题 (topic, 即 实体)
方法
自底向上
有利于抽取新的实例,可保证抽取质量
自顶向下
能发现新的模式
知识图谱上的挖掘
推理
推理( reasoning 或 inference) 被广泛用 于发现隐含知识, 其功能通过可扩展的规则引擎来完成
规则
针对属性
针对关系
实体重要性排序
相关实体挖掘
“其他人还搜了”
知识图谱的更新和维护
知识图谱模式的更新
目前定义的类别数约为 103~104 量级
由专业的人员进 行决策和命名新类别
结构化站点包装器的维护
变化量超过事先设定的阈值且抽取结果与 原先标注的答案差别较大, 则表明现有的站点包装 器失效了
知识图谱的更新频率
规模和更新频度:数据层模式层
众包反馈机制
知识图谱在搜索中的应用
查询理解
1. 选择性显示知识卡片
2. 选择性显示属性
问题回答
总结
1. 目前知识图谱的发展还处于初期阶段
2. 人工干预仍起重要作用
3. 结构化数据在知识图谱的构 建中起到决定性作用
4. 各大搜索引擎公司为了保证知识图谱的质量多半采用成熟的算法
5. 搜索引擎公司展示知识卡片时比较谨慎
6. 更复杂的自然语言查询将崭露头角(如谷歌的蜂鸟算法)
知识图谱 :旨在描述真实世界中存在的各种实体或概 念
知识卡片 : 用户查询中所包含的实体或返回的答案提供的详细的结构化摘要, 是特定查询的知识图谱
实体
文档评论(0)