信息抽取技术发展现状及构建方法研究.docVIP

下载本文档

18
0
约1.13万字
约 20页
2018-08-18 发布于福建
举报
版权申诉

信息抽取技术发展现状及构建方法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

信息抽取技术发展现状及构建方法研究

信息抽取技术的发展现状及构建方法的研究　　摘要：介绍了信息抽取（IE）技术的基本概念、信息抽取系统的抽取过程。对现有的信息抽取系统构建方法进行了分类和介绍，并对这些方法进行了讨论和比较，同时指出了构建中文信息抽取系统所需要解决的关键的基础问题。　　关键词：自然语言处理；信息抽取；构建信息抽取系统方法　　中图分类号：TP391文献标志码：A 　　文章编号：1001－3695(2007)07－0006－04 　　　　随着计算机在各个领域的广泛普及和Internet的迅猛发展，社会的信息总量呈指数级增长。信息总量的量级，从20世纪90年代初的MB（10??6）过渡到GB（10??9）再到现在的TB（1012）。进入21世纪后，全世界信息总量更是以每三年增加一倍的速度递增。据统计，在这些海量信息中，有60％~70％是以电子文档的形式存在。为了应对信息爆炸带来的挑战，迫切需要一些自动化的技术帮助人们在海量信息中迅速找到自己真正需要的信息。信息抽取（Information Extraction,IE）正是解决这个问题的一种方法。?? 　　　　1信息抽取的定义和任务?? 　　　　信息抽取技术是指从一段文本中抽取指定的事件、事实等信息，形成结构化的数据并存入一个数据库，供用户查询和使用的过程。也就是从文本中抽取用户感兴趣的事件、实体和关系，被抽取出来的信息以结构化的形式描述，然后存储在数据库中，为情报分析和检测、比价购物、自动文摘、文本分类等各种应用提供服务。广义上信息抽取技术的抽取对象并不局限于文本，其他形式存在的信息也可以作为信息抽取的对象，而抽取的结果则变为相应的结构化数据。广义上信息抽取的过程如图1所示。?? 　　　　信息抽取技术的最终目的就是开发实用的信息抽取系统，从自由文本中抽取、分析信息，从而得到有用的、用户感兴趣的信息。信息抽取技术在军事、经济、医学、科学研究等领域有着极大的应用空间。?? 　　与信息抽取密切相关的一项研究是信息检索(Information Retrieval，IR)技术。但是信息抽取与信息检索又有区别，其主要区别如表1所示。?? 　　　　表1信息抽取与信息检索的区别?? 　　　　虽然信息抽取与信息检索有区别，但两种技术是互补的。在海量文本的处理过程中，信息抽取系统往往是以信息检索系统的输出为输入，而信息抽取技术又可以用来提高信息检索系统的性能。?? 　　　　2信息抽取技术的研究对象及信息抽取过程?? 　　　　信息抽取技术的研究对象主要分为三种[1]：①结构化文本（Structured Text）。它是指按照一定格式严格生成的文本，如数据库中的文本信息等。对此类文本的信息抽取非常容易，准确率也非常高。　　②自由文本(Free Text)。它是指文本中文字合乎于自然语法规则的文本，如新闻报道、科技文献、政府文件等。　　③半结构化文本（Semi－structured Text）。它是介于结构化文本和自由文本之间、文本的文字不完全符合自然语法规则的文本。这类文本一般比较简短，没有固定的形式，如电报报文、分析报表、简短广告文等。随着Internet的普及，出现了大量的网页。其中需要运用NLP（自然语言处理）技术才能实现信息抽取的网页也属于非结构化文本[2]。处理这类文本的信息抽取技术叫Web信息抽取技术，目前已经成为了信息抽取技术的一个重要分支。?? 　　信息抽取可以理解为一个从待处理文本中抽取信息，并依次填入输出模板(Template)相应的槽（Slot）中的过程。输出模板是由多个槽组成，它是信息抽取系统结构化的输出结果。运用完全（深层）句法分析(Full Syntactic Analysis)或浅层句法分析(Shallow Syntactic Analysis)的信息抽取系统的结构会有一些不同，但是它们的主要结构都可以由图2所示的结构表示。?? 　　　　这个通用的信息抽取系统结构是由C. Cardie[3]提出的。该结构由五个步骤组成：①符号化和标注（Tokenization and Tagging）。输入文档首先经过分段、分句后进行词性标注，有些系统还会加入语义标注。对于中文文档而言，在文档完成了分句后还要进行自动分词的处理。由于汉语本身的特点，该步骤的处理对于中文信息抽取系统的性能起着比较关键的作用。②句法分析（Sentence Analysis）。信息抽取系统将识别待处理文本的名词短语、动词短语等各种语法结构，并选择一步或多步策略进行句法分析，以识别与抽取任务相关的各类命名实体（NE）。③抽取（Extraction）。系统利用与领域相关的抽取模式来识别待处理文本中各个命名实体间的关系，根据抽取任务将需要抽取的信息抽取出来，并