- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
知识图谱简介;; 知识互联的目标是构建一个人与机器都可理解的万维网,使得人们的网络更加智能化。然而,由于万维网上的内容多源异质,组织结果松散,给大数据环境下的知识互联带来了极大的挑战。因此,人们需要根据大数据环境下的知识组织原则,从新的视角去探索既符合网络信息资源发展变化又能适应用户认知需求的知识互联方法,从更深层次上揭示人类认知的整体性与关联性。
知识图谱以其强大的语义处理能力与开放互联能力,可为万维网上的知识互联奠定扎实基础。使Web3.0提出的“知识之网”成为了可能。;知识图谱并非是一个全新概念,早在2006年,就提出了语义网的概念,呼吁推广、完善使用本体模型来形式化表达数据中的隐含语义,RDF模式和万维网本体语言(OWL)的形式化模型就是基于上述目的产生的。
随后掀起了一场语义网研究的热潮,知识图谱技术的出现正是基于以上相关研究,是对语义网标准和技术的一次扬弃与升华。
知识图谱于2012年5月17日被Google正式提出,其初衷是为了提高搜索引擎的能力,增强用户的搜索质量以及搜索体验。;1;01;Web中有多种类型的事物;事物间有多种类型的连接;知识图谱;知识类型;通用表示方式;知识图谱架构;知识图谱逻辑架构;知识图谱体系架构; 知识图谱构建从最原始的数据出发,采用一系列自动或者半自动的技术手段,从原始数据库和第三方数据库中提取知识事实,并将其存入知识库的数据层和模式层,这一过程包含以上四个阶段,每一次更新迭代均包含这四个阶段。;知识图谱主要有自顶向下(top-down)与自底向上(bottom-up)两种构建方式。
自顶向下:指的是先为知识图谱定义好本体与数据模式,再将实体加入到知识库。该构建方式需要利用一些现有的结构化知识库作为其基础知识库。
自底向上:指的是从一些开放链接数据中提取出实体,选择其中置信度较高的加入到知识库,再构建顶层的本体模式。目前,大多数知识图谱都采用自底向上的方式进行构建,其中最典型就是Google的Knowledge Vault和微软的Satori知识库。现在也符合互联网数据内容知识产生的特点。;知识库介绍;(a)“姚明出生于上海”
??b)“姚明的身高是226cm”
(c)“姚明是篮球运动员”
以上就是一条条知识,把大量的知识汇聚起来就成为了知识库。我们可以从wikipedia,百度百科等百科全书获取到大量的知识。但是,这些百科全书的知识是由非结构化的自然语言组建而成的,这样的组织方式很适合人们阅读但并不适合计算机处理。;知识库的表示形式
为了方便计算机的处理和理解,我们需要更加形式化、简洁化的方式去表示知识,那就是三元组。
“姚明出生于中国上海” 可以用三元组表示为(Yao Ming,PlaceOfBirth,Shanghai)。这里我们可以简单的把三元组理解为(实体entity,实体关系relation,实体entity)。如果我们把实体看作是结点,把实体关系(包括属性,类别等等)看作是一条边,那么包含了大量三元组的知识库就成为了一个庞大的知识图。;上海;目前已有的大规模知识库:;;知识图谱关键技术;; 知识抽取主要是面向开放的链接数据,通常典型的输入是自然语言文本或者多媒体内容文档(图像或者视频)等。然后通过自动化或者半自动化的技术抽取出可用的知识单元,知识单元主要包括实体(概念的外延)、关系以及属性三个知识要素,并以此为基础,形成一系列高质量的事实表达,为上层模式层的构建奠定基础。; 实体抽取也称为命名实体学习(named entity learning)或命名实体识别 (named entity recognition),指的是从原始语料中自动识别出命名实体。由于实体是知识图谱中的最基本元素,其抽取的完整性、准确率、召回率等将直接影响到知识图谱构建的质量。因此,实体抽取是知识抽取中最为基础与关键的一步。
实体抽取的方法分为三种:
(a)基于规则与词典的方法;
(b)基于统计机器学习的方法;
(c)面向开放域的抽取方法。;(a)早期的实体抽取是在限定文本领域、限定语义单元类型的条件下进行的,主要采用的是基于规则与词典的方法,例如使用已定义的规则,抽取出文本中的人名、地名、组织机构名、特定时间等实体。然而,基于规则模板的方法不仅需要依靠大量的专家来编写规则或模板,覆盖的领域范围有限,而且很难适应数据变化的新需求。
(b)鉴于基于规则与词典实体的局限性,为具更有可扩展性,相关研究人员将机器学习中的监督学习算法用于命名实体的抽取问题上。单纯的监督学习算法在性能上不仅受到训练集合的限制,并且算法的准确率与召回率都不够理想。相关
您可能关注的文档
最近下载
- 2023年下半年广西普通高中学业水平合格性考试数学真题试卷含答案.docx VIP
- 量子计算性能评估基准研究报告 202412.pdf VIP
- 全国第三届职业技能大赛(劳动关系协调师)选拔赛理论考试题库(含答案).docx VIP
- 胃癌临床表现.pptx VIP
- 不不兔课件.ppt VIP
- 《无机化学与化学分析》课程思政案例.docx VIP
- 2025辽宁沈阳城市建设投资集团所属企业沈阳国际工程咨询集团有限公司招聘11人笔试备考试题及答案详解.docx VIP
- (高清版)DB5119∕T 21-2021 地理标志产品 江口醇酒生产技术规范 .pdf VIP
- 拆除工程安全技术规范.pdf VIP
- 考研真题 天津外国语大学801英语语言文学(英美文学方向)历年考研真题汇编.docx VIP
文档评论(0)