9 知识图谱知识图谱从哪里来：实体关系抽取的现状与未来.docxVIP

下载本文档

5
0
约1.42万字
约 21页
2021-07-17 发布于湖南
举报
版权申诉

9 知识图谱知识图谱从哪里来：实体关系抽取的现状与未来.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

【学问图谱】学问图谱从哪里来：实体关系抽取的现状与将来 2020-03-19 原文大数据文摘出品来源：知乎（zibuyu9）作者：韩旭、高天宇、刘知远最近几年深度学习引发的人工智能浪潮席卷全球，在互联网普及带来的海量数据资源和摩尔定律支配下飞速提升的算力资源双重加持下，深度学习深化影响了自然言语处理的各个方向，极大推动了自然言语处理的进展。来到2019年的今日，深度学习的诸多局限性也渐渐得到广泛认知。对于自然言语处理而言，要做到精细深度的语义理解，单纯依靠数据标注与算力投入无法处理本质问题。假如没有先验学问的支持，“中国的乒乓球谁都打不过”与“中国的足球谁都打不过”，在计算机看来语义上并没有巨大差异，而实际上两句中的“打不过”意思正好相反。因此，融入学问来进行学问指点的自然言语处理，是通向精细而深度的言语理解的必由之路。然而，这些学问又从哪里来呢？这就涉及到人工智能的一个关键争辩问题——学问猎取。学问图谱现有大型学问图谱，诸如Wikidata、Yago、DBpedia，富含海量世界学问，并以结构化形式存储。如下图所示，每个节点代表现实世界中的某个实体，它们的连边上标记实体间的关系。这样，美国作家马克·吐温的相关学问就以结构化的形式记录下来。目前，这些结构化的学问已被广泛使用于搜索引擎、问答系统等自然言语处理使用中。但与现实世界快速增长的学问量相比，学问图谱掩盖度仍力有未逮。由于学问规模巨大而人工标注昂贵，这些新学问单靠人力标注添加几无可能完成。为了尽可能准时精确?????地为学问图谱添加愈加丰富的世界学问，争辩者们努力探究高效自动猎取世界学问的方法，即实体关系抽取技术。具体来说，给定一个句子和其中消灭的实体，实体关系抽取模型需要依据句子语义信息推想实体间的关系。例如，给定句子：“清华高校坐落于北京近邻”以及实体“清华高校”与“北京”，模型可以通过语义得到“位于”的关系，并最终抽取出（清华高校，位于，北京）的学问三元组。实体关系抽取是一个经典任务，在过去的20多年里都有持续争辩开展，特征工程、核方法、图模型曾被广泛使用其中，取得了一些阶段性的成果。随着深度学习时代来临，神经网络模型则为实体关系抽取带来了新的突破。神经网络关系抽取模型面对自然言语文本序列已经有很多神经网络类型，例如循环神经网络（RNN、LSTM)、卷积神经网络（CNN）和Transformer等，这些模型都可以通过适当改造用于关系抽取。最后，工作 [1，2] 初次提出访用CNN对句子语义进行编码，用于关系分类，比非神经网络方法比功能显著提升；工作 [3，4] 将RNN与LSTM用于关系抽取；此外，工作 [5] 提出接受递归的神经网络对句子的语法分析树建模，试图在提取语义特征的同时考虑句子的词法和句法特征，这个想法也被不少后续工作的进一步探究。这里，我们列出一个表格，总结各类典型神经网络在基准测试数据集合SemEval-2010 Task-8 [6] 上的效果。从上表可以看出，这些神经网络模型均取得了优秀的试验结果，且相互之间没有显著的功能差异。这能否意味着关系抽取问题就此处理了呢？实际上并非如此。SemEval-2010 Task-8的任务设定为，对事后定义好的关系类别标注大量的训练和测试样例，样例都是相对简约的短句，而且每种关系的样例分布也比较均匀。然而，实际使用中往往面临很多挑战：数据规模问题：人工精准地标注句子级别的数据代价格外昂扬，需要耗费大量的时间和人力。在实际场景中，面对数以千计的关系、数以千万计的实体对、以及数以亿计的句子，依靠人工标注训练数据几乎是不行能完成的任务。学习力量问题：在实际情况下，实体间关系和实体对的消灭频率往往听从长尾分布，存在大量的样例较少的关系或实体对。神经网络模型的效果需要依靠大规模标注数据来保证，存在”举十反一“的问题。如何提高深度模型的学习力量，实现”举一反三“，是关系抽取需要处理的问题。简单语境问题：现有模型次要从单个句子中抽取实体间关系，要求句子必需同时包含两个实体。实际上，大量的实体间关系往往表现在一篇文档的多个句子中，甚至在多个文档中。如何在更简单的语境下进行关系抽取，也是关系抽取面临的问题。开放关系问题：现有任务设定一般假设有事后定义好的封闭关系集合，将任务转换为关系分类问题。这样的话，文本中包含的实体间的新型关系无法被无效猎取。如何利用深度学习模型自动发觉实体间的新型关系，实现开放关系抽取，仍旧是一个”开放“问题。所以说，SemEval-2010 Task-8这样的抱负设定与实际场景存在巨大鸿沟，仅依靠神经网络提取单句语义特征，难以应对关系抽取的各种简单需求和挑战。我们亟需探究更新颖的关系抽取框架，猎取更大规模的训练数据，具备更高效的学习力量，擅长理解简单的文档级语境信