信息抽取技术及前景浅析.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息抽取技术及前景浅析 李荣国 072529 关键词:信息抽取 信息处理技术 分词 句法及语义分析 摘要: 面向实际应用和潜在需求,建立自适应的、可移植的系统是未来信息抽取的发展方向,立足于目前已有的研究成果,建立受测试集驱动、通过机器学习构建有监督机制的规则库并在此基础上实现知识获取将成为一条发展的思路。 一、信息抽取概述 随着计算机在各个领域的广泛普及和Internet的迅猛发展,社会的信息总量呈指数增长。信息总量的量级,从20世纪90年代初的MB(106)过渡到GB(109)再到现在的TB(1012)。进入21世纪后,全世界信息总量更是以每三年增加一倍的速度递增。据统计,在这些海量信息中,有60%~70%是以电子文档的形式存在。为了应对信息爆炸带来的挑战迫切需要一些自动化的技术帮助人们在海量信息中迅速找到自己真正需要的信息。信息抽取(Information ExtractionIE)正是解决这个问题的一种方法。 信息抽取技术是指从一段文本中抽取指定的事件、事实信息,结构化,供查询。也就是从文本中抽取用户感兴趣的事件、实体和关系,被抽取出来的信息以结构化的形式描述,然后存储在数据库中,为情报分析和检测、比价购物、自动文摘、文本分类等各种应用提供服务。广义上信息抽取技术的抽取对象并不局限于文本,其他形式存在的信息也可以作为信息抽取的对象,而抽取的结果则变为相应的结构化数据。 信息抽取技术的最终目的就是开发实用的信息抽取系统,从自由文本中抽取、分析信息,从而得到有用的、用户感兴趣的信息。信息抽取技术在军事、经济、医学、科学研究等领域有着极大的应用空间。   与信息抽取密切相关的一项研究是信息检索(Information Retrieval,IR)技术。信息抽取系统的构建 在信息抽取技术中,对自由文本进行信息抽取需要运用许多自然语言处理(NLP)知识,所以自由文本信息抽取系统的构建是比较复杂和困难的。在信息抽取系统的构建过程中,最重要的是如何获得抽取模式(Extraction Pattern)。根据抽取模式获得的方式的不同,信息抽取系统的构建主要有两种方法,即知识工程方法(Knowledge Engineering Approach)和机器学习方法(Machine Learning Approach)。 知识工程(KE)方法依靠人工编写抽取模式,使系统能处理特定知识领域的信息抽取问题。这种方法要求编写抽取模式的知识工程师对知识领域有深入的了解。 已有相应的资源,如词典、表等; 已经有了可用的规则; 数据训练代价大或者不容易实现; 抽取的规格变化频繁; 性能要求高。 机器学习(ML)方法是利用机器学习技术让信息抽取系统通过训练文本来获得抽取模式,实现特定领域的信息抽取功能。任何对知识领域比较熟悉的人都可以根据事先约定的规则来标记训练文本。利用这些训练文本训练后,系统能够处理没有标记的新的文本。 知识工程方法的设计初始阶段较容易,但是要实现较完善的规则库的过程往往比较耗时耗力。自动学习方法抽取规则的获取是通过学习自动获得的,但是该方法需要足够数量的训练数据,才能保证系统的抽取质量。 通用信息抽取结构:Hobbs提出的,也叫Hobbs结构。 将信息抽取系统抽象为“级联的转换器或模块集合,利用手工编制或自动获得的规则在每一步过滤掉不相关的信息,增加新的结构信息”。其组成如图1所示。 图1 信息抽取过程 ☆ 文本分块:将输入文本分割为不同的部分——块。 ☆ 预处理:将得到的文本块转换为句子序列,每个句子由词汇项(lexical items,词或特点类型短语)及相关的属性(如词类)组成。 ☆ 过滤:过滤掉不相关的句子。 ☆ 预分析:在词汇项序列中识别确定的小型结构,如名词短语、并列结构等。 ☆ 片段组合:如果上一步没有得到完整的分析树,则需要将分析树片段集合或逻辑形式片段组合成整句的一颗分析树或其他逻辑表示形式。 ☆ 语义解释:从分析树或者分析树片段集合生成语义结构、意义表示或其他逻辑形式。 ☆ 词汇消歧:消解上一模块中存在的歧义得到唯一的语义结构表示。 ☆ 共指消解:也称篇章处理,通过确定同一实体在文本不同部分中的不同描述将当前句的语义结构表示合并到先前的处理结果中。 ☆ 模板生成:由文本的语义结构表示生成最终的模板。 当然,不是所有的信息抽取系统都包含所有的模块,并且也未必完全遵循以上的处理顺序。但一个信息抽取系统应该包含以上模块中描述的功能。一个典型的信息抽取系统的工作过程主要包括: 用一组信息模式(info patterns)描述感兴趣的信息。信息模式一般可表示为一个简单的句子,如公司名“推出”产品名。系统针对某一领域的信息特征预定义一系列信息模式存于模式库中。 对文本进行“适度的”词法、句法及句子分析,并作各种文本

文档评论(0)

hshh + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档