基于深度 学习的关系抽取.docxVIP

  • 17
  • 0
  • 约6千字
  • 约 6页
  • 2020-06-20 发布于北京
  • 举报
最新整理资料 文档精选合集 基于深度学习的关系抽取 作者:林衍凯、刘知远(清华大学) 【引言】 信息抽取旨在从大规模非结构或半结构的自然语言文本中抽取结构化信息。关系抽取是其中的重要子任务之一,主要目的是从文本中识别实体并抽取实体之间的语义关系。例如,句子“Bill Gates is the founder of Microsoft Inc.”中包含一个实体对(Bill Gates, Microsoft Inc.),这两个实体对之间的关系为 Founder。 现有主流的关系抽取技术分为有监督的学习方法、半监督的学习方法和无监督的学习方法三种: 1、有监督的学习方法将关系抽取任务当做分类问题,根据训练数据设计有效的特征,从而学习各种分类模型,然后使用训练好的分类器预测关系。该方法的问题在于需要大量的人工标注训练语料,而语料标注工作通常非常耗时耗力。 2、半监督的学习方法主要采用 Bootstrapping 进行关系抽取。对于要抽取的关系,该方法首先手工设定若干种子实例,然后迭代地从数据从抽取关系对应的关系模板和更多的实例。 3、无监督的学习方法假设拥有相同语义关系的实体对拥有相似的上下文信息。因此可以利用每个实体对对应上下文信息来代表该实体对的语义关系,并对所有实体对的语义关系进行聚类。 与其他两种方法相比,有监督的学习方法能够抽取更有效的特征,其准确率和召回率都更高。因此有监督的学习方法受到了越来越多学者的关注,本文也将重点介绍该类方法。 深度学习是机器学习研究的热点之一领域,其主要思想是模拟人脑神经网络建立学习模型,从语音、图像或文本等不同数据中学习有用信息。典型的深度学习方法包括卷积神经网络(convolutional neural networks,CNN)和循环神经网络(recurrent neural networks,RNN),这些模型在文本分类、机器翻译、智能问答等方向都取得了显著的效果。那么,近年来深度学习技术在关系抽取领域的进展如何,关系抽取技术未来的研究趋势是什么?本文将就这些问题加以详细的阐述。 【基于有监督学习的关系抽取】 有监督的关系抽取系统通常需要大量人工标注的训练数据,从训练数据中自动学习关系对应的抽取模式。有监督关系抽取方法主要包括:基于核函数的方法[Zhao and Grishman 2005; Bunescu and Mooney 2006],基于逻辑回归的方法[Kambhatla 2004],基于句法解析增强的方法[Miller et al. 2000]和基于条件随机场的方法[Culotta et al. 2006]。然而,阻碍这些系统效果继续提升的主要问题在于, 人工标注训练数据需要花费大量的时间和精力。 针对这个局限性,Mintz 等人[Mintz et al. 2009]提出了远程监督(Distant Supervision)的思想。作者们将纽约时报新闻文本与大规模知识图谱 Freebase(包含 7300 多个关系和超过 9 亿的实体)进行实体对齐。远程监督假设,一个同时包含两个实体的句子蕴含了该实体对在 Freebase 中的关系,并将该句子作为该实体对所对应关系的训练正例。作者在远程监督标注的数据上提取文本特征并训练关系分类模型,有效解决了关系抽取的标注数据规模问题。之后许多研究者从各个角度对远程监督技术提出了改进方案。例如 Takamatsu 等人[Takamatsu et al. 2012]改进了实体对齐的技术,降低了数据噪音,提高了关系抽取的总体效果。 Yao 等人[Yao et al. 2010]提出了基于无向图模型的关系抽取方法。Riedel 等人[Riedel et al. 2010]则增强了远程监督的假设,与 [Mintz et al.2009]相比错误率减少了 31%。 以上远程监督技术都假设一个实体对只对应一种关系。但是,很多实体之间具有多种关系。例如,“Steve Jobs founded Apple”和“Steve Jobs is the CEO of Apple”。因此,Hoffmann 等人[Hoffmann et al. 2011]提出采用多实例多标签 (Multi-Instance Multi-label)方法来对关系抽取进行建模,刻画一个实体对可能存在多种关系的情况。类似地,Surdeanu 等人[Surdeanu et al. 2012]也提出利用多实例多标签和贝叶斯网络来进行关系抽取。 【基于深度学习的关系抽取】 现有的有监督学习关系抽取方法已经取得了较好的效果,但它们严重依赖词性标注、句法解析等自然语言处理标注提供分类特征。而自然语言处理标注工具 往往存在大量错误,这些错误将会在关系抽取系统中不断传播放大,最终影响关系抽取的效果。 最近,很

文档评论(0)

1亿VIP精品文档

相关文档