- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
知识图谱技术原理介绍
转载 2016 年 10 月 19 日 08:59:08
标签:
NLP /
知识图谱
2335
/archives/39306
作者:王昊奋
近两年来,随着 Linking Open Data[1] 等项目的全面展开,语义 Web 数据源
的数量激增,大量 RDF 数据被发布。互联网正从仅包含网页和网页之间超链接
的文档万维网 (Document Web) 转变成包含大量描述各种实体和实体之间丰富
关系的数据万维网 (Data Web) 。在这个背景下, Google 、百度和搜狗等搜索引
擎公司纷纷以此为基础构建知识图谱,分别为 Knowledge Graph 、知心和知立
方,来改进搜索质量, 从而拉开了语义搜索的序幕。 下面我将从以下几个方面来
介绍知识图谱: 知识图谱的表示和在搜索中的展现形式, 知识图谱的构建和知识
图谱在搜索中的应用等,从而让大家有机会了解其内部的技术实现和各种挑战。
知识图谱的表示和在搜索中的展现形式
正如 Google 的辛格博士在介绍知识图谱时提到的: “Theworld is not made o
f strings , but is made of things. ,”知识图谱旨在描述真实世界中存在的各种
实体或概念。其中,每个实体或概念用一个全局唯一确定的 ID 来标识,称为它
们的标识符 (identifier) 。每个属性 -值对 (attribute-value pair ,又称 AVP) 用来刻
画实体的内在特性,而关系 (relation) 用来连接两个实体,刻画它们之间的关联。
知识图谱亦可被看作是一张巨大的图, 图中的节点表示实体或概念, 而图中的边
则由属性或关系构成。上述图模型可用 W3C 提出的资源描述框架 RDF[2] 或属
性图 (property graph)[3] 来表示。知识图谱率先由 Google 提出,以提高其搜索
的质量。
为了更好地理解知识图谱, 我们先来看一下其在搜索中的展现形式, 即知识卡片
(又称 Knowledge Card) 。知识卡片旨在为用户提供更多与搜索内容相关的信息。
更具体地说,知识卡片为用户查询中所包含的实体或返回的答案提供详细的结构
化摘要。从某种意义来说,它是特定于查询 (query specific) 的知识图谱。例如,
当在搜索引擎中输入 姚明“ ”作为关键词时,我们发现搜索结果页面的右侧原先用
于置放广告的地方被知识卡片所取代。 广告被移至左上角, 而广告下面则显示的
是传统的搜索结果, 即匹配关键词的文档列表。 这个布局上的微调也预示着各大
搜索引擎在提高用户体验和直接返回答案方面的决心。
【三大搜索引擎关于姚明的知识卡片 (略)】
虽说三大搜索引擎在知识卡片的排版和内容展现上略有不同, 但是它们都列出了
姚明的身高、体重、民族等属性信息。此外,它们均包含 用户还搜索了“ ”或 其他“
人还搜 ”的功能来展现相关的人物。该功能允许用户去浏览其他与姚明相关的人
物的详细信息。 细心的读者也发现 Google 在其知识卡片中也展示了很多与姚明
相关的图片, 以图文并茂的方式来展示姚明的方方面面。 百度则结合了百度风云
榜的信息,列出了姚明的类别 (体坛人物 )及其百度指数 (今日
原创力文档


文档评论(0)