技术检测中信息抽取技术应用分析.docVIP

下载本文档

13
0
约3.5千字
约 7页
2018-09-10 发布于福建
举报
版权申诉

技术检测中信息抽取技术应用分析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

技术检测中信息抽取技术应用分析

技术检测中信息抽取技术应用分析　　摘要：本文主要讲述了对于信息抽取技术的研究从它的概念，和它具体应用的分析，到最后的如何运用做了简单的介绍以及在信息抽取的过程中所涉及到的自然语言处理技术和中文信息抽取具有怎样的目的，任务和技术。　　Abstract： This paper mainly studies the technology of information extraction from perspectives of specific application， how to apply and the objectives， tasks and technologies of the involved natural language processing technology and Chinese information extraction in the process of information extraction. 　　关键词：新闻；获取信息；信息的检索　　Key words： news；obtain information；information retrieval 　　中图分类号：G202 文献标识码：A 文章编号：1006-4311（2014）21-0236-02 　　0 引言　　随着社会经济不断的发展，各种各样的新闻也在不断地增加，随着互联网的发展，每天不断产生大量数据文件，同时还要对这些文件进行交流和处理。但是在实际需求中，人们往往不能在这些众多文件中，迅速将自身所需信息寻找出来，所以，如何能够快速准确地从众多的网络信息中来获取到自己所需要所感兴趣的信息就成为了一个主要的问题。　　1 对于信息抽取的简单描述　　信息抽取的技术属于是信息处理技术之一，其主要是依照之前已经设计好的模板，将人们所需求的信息从本结构或者是非结构化文本中进行提取。例如对于一条网络新闻来说，则就要对这条新闻的类型、发生时间以及发生地点等信息进行抽取。这样实施信息抽取，不但可以对人们找到自己所感兴趣所需要的信息提供帮助，同样也能够对其信息内容进行一定的处理和总结，从而提高人们寻找自己感兴趣信息速度，并获取与自己所感兴趣的信息所相关的一些信息。并且还能在这个基础上进一步对数据的挖掘，文本的生成等信息做后续的处理。这种信息提取技术的发展在各种新闻量增长的当代具有非常重要的应用价值。所以这项技术也越来越受到人们的重视。　　2 对信息抽取的主要情况的分析　　随着新闻的越来越多，人们所需要信息量也会越来越大，这就对加速信息检索到了一定的作用。对于信息的抽取是从某一段的文字中抽取出所需要的事件或者事实等，并将这些指定时间或者事实的抽取而形成的一种数据，填入到信息抽取技术系统的数据库中，这样也就为用户的信息查询提供方便。实施信息抽取的主要目的就是能够在网络中将自己所指定要找的文件信息找到，同时也将和自己制定文件信息相关的内容获取。比如说在计算机网络中，想要对某一种设备的名称、用途以及生产厂家等信息进行抽取，那么对于互联网IE任务来说，则也就是将这一设备的相关信息和内容从其在线文本中进行抽取，将在预先设计好中模板中进行填写完成。　　对于特定的互联网IE系统的任务和通用的自然语言理解和任务是不一样的。对于通用自然语言来说，系统的输入必须是对输入的句子做透彻的分析，其中包括其输入句子的本身意义及隐含意义。通常我们会把自然语言进行两步理解，其一就是分析输入句子，将其在一个句法结构中进行映射，这一方式被称为句法树；其二则是对其进行句法和句义之间的转换，将其在句法意义中进行映射表达。在一个特定的互联网IE中，从一段的文本中抽取出指定的事件或者事实等，并将这些指定事件或者是事实抽取所形成的结构化数据，在提取信息数据库中进行填写，为用户对自己所需要的全部信息查询提供方便。当然其所抽取的信息，也必须将其事先进行设计。因此只有携带有相关短语的句子，就能够被进行解释，输入文本也能够将其有限数目分类时间进行映射。比如在搜索凶杀事件和爆炸事件等中。所以对语义进行完全句法式的分析解释，是完全没有意义的，主要对于文章进行片段性分析即可。　　信息抽取技术系统主要的就是以模板框架做为中间点，从而把信息抽取的技术分成两个阶段，分别是选择和生长阶段。其中模板框架可以看成是一张申请单，其采用空槽形式将所需要的各项信息从原文中进行抽取。例如在对计算机病毒类信息需求时，即可以将病毒传染对象、病毒攻击对象、病毒名称以及病毒种类进行提取。在进行选择过程中，可以在文本中借助于具有特征性词语将其相关短语或者句子进行提取，将其用来输入到预先定义的模板中。比如如果能够在其文本中能够对可执行感染性文件相关文字进行发现，也就可以借助于这些文字或者是句