基于自举的弱指导中文语义关系抽取分析-analysis of weak guidance chinese semantic relation extraction based on bootstrap.docx

下载文档 降价啦

10
0
约4.91万字
约 55页
2018-08-14 发布于上海
举报
版权申诉
保障服务

基于自举的弱指导中文语义关系抽取分析-analysis of weak guidance chinese semantic relation extraction based on bootstrap.docx

1、本文档共55页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于自举的弱指导中文语义关系抽取分析-analysis of weak guidance chinese semantic relation extraction based on bootstrap

标准技术研究院困 IST)组织的自动内容抽取(ACE:AutomatieContentExtraction)评测竞赛，至今取得了较多技术成果并成功应用到实际系统中。信息抽取系统的主要功能是从文本中抽取出特定的事实信息，我们称之为实体（Entity）。在许多自然语言理解系统中，不但要识别文本中的实体，而且还要根据上下文确定和抽取这些实体之间的各种语义关系，即实体间语义关系抽取。语义关系抽取的研究是信息抽取重要的研究课题，这里的语义关系指的是文档中特定的词与词之间的语义关系，它可分为传统的和非传统的语义关系。传统的语义关系包括下位关系、上位关系、方式关系、部分整体关系、整体部分关系、反义关系和同义关系。而非传统的语义关系是指除传统语义关系之外的关系，如雇佣关系、居住关系以及亲人关系等。语义关系抽取研究的是文本中词与词之间的语义关系，通过研究词间的语义关系，抽取出文本中具有某种语义关系的词对。语义关系抽取的研究在本体构建、搜索引擎、网络信息过滤和信息安全、自动问答机器翻译、文本挖掘、语义消歧和生物技术等领域有着重要的应用，近年来，语义关系抽取的研究受到了越来越广泛的重视，它的研究将有利于推进信息抽取技术的进一步发展。目前语义关系抽取主要使用两种方法：知识工程方法，机器学习方法。知识工程方法需要人为构建大规模的知识库，费时费力，因此人们逐渐转向机器学习的方法。在机器学习方法中，根据对语料的不同需求大致可分成三大类：指导性学习方法、弱指导学习方法和无指导学习方法。有指导的语义关系抽取目前取得了较好的性能。但是它们需要大规模的人工标注关系实例作为训练数据，由于其较强依赖人工标注语料库，因此通用性不强。弱指导学习方法在语义关系抽取方面具有很大的发展空间，它最大的好处是可以大大减少学习过程中所需要的标注语料库的规模，其主要问题是初始种子的选择比较困难，对最终的性能影响较大。无指导语义关系抽取不需要事先定义关系类别和人工标注数据，但是性能较差。相对于英文信息抽取，中文信息抽取的研究起步较晚、成果十分有限。从理论上讲，在中文的语义关系的抽取上采用的方法和原理同样适用于中文，但是由于中英文在语法结构上有很多不同，而且，我国从事这方面研究的人员也比较少，起步也比较晚，可以借鉴的内容也不多，因此其方法基本上都集中于指导性的统计机器学习方法，包括基于特征的方法和基于核函数的方法两大类。而在这两类的中文抽取方面，达到的抽取性能也不是很高（指数约为 30）。在这些关系抽取中，有指导的方法占主导地位，而弱指导的中文语义关系抽取目前尚无比较系统、完善的方法。1.1.2 研究意义本文的研究内容是基于自举学习的弱指导中文语义关系抽取研究的方法，其具有以下重要研究意义：基于自举学习的方法起步比较晚，抽取性能提升的空间也很大，而且大多是针对某些大类等细节，并且取得的性能也比较低，研究人员采用的语料库及方法的可比性相对较差，往往难于判断方法本身的好坏，针对各类关系进行系统的抽取研究成果至今没有较系统的发表。就语义关系发展现状来看，在未来的几年内，中文语义关系抽取研究将是我国信息处理的重要研究方向。中文语义关系抽取研究刚刚起步，现阶段对中文实体关系抽取的研究还不全面，内容也较少，因此其方法基本上都集中于指导性的统计机器学习方法，包括基于特征的方法和基于核函数的方法两大类，并且性能也不是很高，可比性很差。有指导的学习方法需要消耗大量的人力和物力，而弱指导学习方法为关系抽取指出了一个新的研究方向，因为不需要人工标注的数据，可以节省大量的时间和人力，是将来研究的必然方向，目前在关系抽取领域使用的弱指导方法主要有自举方法、协同训练和标注传播等方法。自举方法(Bootstrapping)[4][5]，也叫做自扩展技术，是一种被广泛使用的，用于知识获取的机器学习技术。自举学习方法是一种循序渐进的学习方法。只需要很小数量的有用数据，或者说种子，以此为基础，通过一次又一次的不断的学习，把小数量的基础进行有效的扩大扩充，最终达到需要的数据信息规模。自举方法在自然语言处理的各个方面得到了广泛的应用，并有很多成功的例子。1998 年，Sergey Brin[6]利用自举方法进行命名实体之间的关系抽取，该系统称为 DIPRE（Dual Iterative Pattern Relation Expansion）。Brin 通过人工的方式事先找到少量具有某种关系的命名实体对实例作为种子，通过发现那些与种子上下文中具有相同模式的命名实体对，对关系种子进行扩展。Brin 从 Web 网页中对书名和作者这样的关系进行了抽取，取得了较好的效果。2000 年，Yevgeny Agichtein 等[7][8]对 Brin 的