自然语言信息抽取中机器学习方法与研究.pdfVIP

下载本文档

24
0
约2.27万字
约 10页
2015-08-30 发布于安徽
举报
版权申诉

自然语言信息抽取中机器学习方法与研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

自然语言信息抽取中的机器学习方法研究周俊生，戴新宇，尹存燕，陈家骏摘要：信息抽取是一种用于处理各种类型文本文档的非常有效的方法，然而建立一个文本信息抽取系统却是非常困难和耗费时间的。近年来，基于统计的机器学习方法在信息抽取领域的研究受到了广泛关注。本文深入探讨了当前自然语言信息抽取领域广泛采用的几种非常有效的统计学习方法，比较分析了各种方法的统计推断过程和学习算法及其优缺点，讨论了各种统计学习方法所面临的语料匮乏问题的主要解决方法，并指出了今后进一步研究的方向。关键字：自然语言，信息抽取，统计学习，命名实体 1. 引言在当今信息爆炸的时代，大量的信息存在于自然语言形式的文档中。如果要使得这些文档能够被自动地处理和分析，这些文档首先必须要被转化为一种结构化的形式，才能使得包含于文档中的各种“事实”信息可以被方便的访问和处理，从而给信息使用者提供有效的支 [1] [2] 持。信息抽取研究正是在这种背景下产生的。信息抽取技术具有非常广泛的应用领域，如可以将信息抽取应用于传统的信息检索系统和Web 搜索引擎之中，在信息检索之后对相关的文本进行指定信息的抽取，使单纯的信息查找过程进一步变成信息理解（匹配）过程，从而把传统的信息检索系统变成智能系统，以用户更满意的方式输出信息。除强烈的应用需求外，近几年来正在推动信息抽取研究进一步发展的动力，则主要来自美国国家标准技术研究所（NIST）组织的自动内容抽取（ACE）评测会议。这项评测从1999年7月开始酝酿，2000 年 12月正式开始启动，迄今已经举办过四次评测，研究的主要内容是自动抽取新闻语料中 [3] 出现的实体、关系、事件等内容，即对新闻语料中实体、关系、事件的识别与描述。信息抽取虽然是一种用于处理各种类型文本文档的非常有效的方法，然而建立一个文本信息抽取系统却是非常费时费力的。早期出现的信息抽取系统往往依赖于人们手工建立的抽 [4 ] 取规则或模式，而由人建立的规则很难保证具有整体的系统性和逻辑性，并且这些规则一般具有高度的领域相关性和较差的可移植性。因此，迫切需要寻找更加有效的方法来自动学习信息抽取的规则，这种形势使得机器学习在信息抽取系统中的应用研究显得尤为重要和迫切。近几年来在国外，机器学习方法在信息抽取领域的应用研究受到了广泛的关注[5 ] [6] [7] [8] ，特别是对各种基于统计的机器学习方法的研究更是热点。本文深入探讨了当前自然语言信息抽取领域广泛采用的几种非常有效的统计学习方法，分析比较了各种方法的统计推断过程和学习算法及其优缺点，并讨论了各种统计学习方法所面临的标注语料匮乏问题的解决方法，最后指出了今后进一步发展的方向。 2 ．．统计机器学习的基本问题 2 ．1 建模建模的一般任务是首先建立一个装置以模拟一个特定的任务或过程，然后对这个模型的的每个参数进行估计以实例化该模型，这些模型的参数值经常需要通过已标注语料对其进行估计。在建立模型时，有两个相互影响的问题需要着重考虑：怎样参数化一个模型和怎样估计模型的参数值。如果我们构造的模型有太多的参数而太复杂，会导致模型过分依赖于训练数据集，而不能较好地预测将来的其它实例，这种现象称为 “过配”（overfitting ）。相反，如果模型过于泛化，也会存在问题，如一个过于泛化的语法模型所包含的规则可能生成任何可能的字符串，这种现象称为“低配”（underfitting ）。除了过配与低配问题外，另一个建模的基本问题是选择“产生式”（generative ）模型还是 “判别式”(discriminative)模型。产生式模型的学习过程就是估计隐变量的分布和描述其相互关系的参数辨识的过程。通常产生式模型具有清晰的分层结构,而且学习得到的模型很容易满足模型解释要求。而如果以识别为学习的目的,学习得到的模型需要尽量从样本数据中抽取共有的特征,以得到正确的分类边界，这样的模型通常属于判别式模型,它并不包含单一样本的具体特性。这个选择依赖于是否我们在考虑建立一个能够生成语言的装置或语言的部分已经给定（可被观察）的情形，在后一种情况下，建模的任务将是在供选择的多个结构中进行判别。 2 ．2 特征选择主要有四种策略用