自然语言处理在信息检索中应用综述.docVIP

  • 84
  • 0
  • 约1.42万字
  • 约 28页
  • 2018-12-07 发布于福建
  • 举报

自然语言处理在信息检索中应用综述.doc

自然语言处理在信息检索中应用综述

自然语言处理在信息检索中应用综述   (清华大学 计算机科学与技术系,北京 100084)   摘 要:在信息检索①发展的过程中,研究者们不断尝试着将自然语言处理应用到检索里,希望能够为检索效果提高带来帮助。然而这些尝试的结果大多和研究者们最初的设想相反,自然语言处理在大多数情况下没有改进信息检索效果,甚至反而起了负面作用。即便有一些帮助,也往往是微小的,远远不如自然语言处理所需要的计算消耗那么大。研究者们对这些现象进行了分析,认为:自然语言处理更适合于应用在需要精确结果的任务中,例如问答系统、信息抽取等;自然语言处理需要针对信息检索进行优化才可能发挥积极作用。最新的一些进展(例如在语言模型中加入自然语言处理)在一定程度上印证了这一结论。   关键词:人工智能;自然语言处理;综述;信息检索   中图分类号:TP391 文献标识码:A      1 引言      基于全文索引的信息检索发展至今已有十几年的历史。在这十几年里,研究者们不断尝试着将自然语言处理应用到信息检索中,试图提高信息检索的效果。自然语言处理包括自然语言处理技术和自然语言处理资源。在信息检索中使用自然语言处理技术的尝试大部分没有获得好的效果。尽管在小部分实验中信息检索效果有了一些提高,但改进的程度往往很小,为此而使用的复杂的自然语言处理技术则有着巨大的计算消耗,很难被认为是值得的[1]。在信息检索技术中结合自然语言处理资源,例如词典,实验结果也不能令人满意[2]。   信息检索中常常使用到的自然语言处理技术包括去除停止词、取词根、词性标注、词义消歧、句法分析、命名实体识别、指代消解等,自然语言处理资源包括的则是WordNet[3]和HowNet[4]这样的词典。   自然语言处理技术被用来对自然语言进行处理,目的是让计算机“理解”自然语言的内容。而信息检索中所涉及的文档和查询都是用自然语言描述的,因此,在信息检索中使用自然语言处理以提高其效果的想法被寄予了厚望。信息检索可以看作是用查询和文档内容进行匹配的过程,匹配的单位通常是查询和文档中的词。基于词匹配的信息检索中存在着与自然语言特点相关的问题,同样促使研究者们求助于自然语言处理[5]:   ?不同的词可以表达同一个意思   ?同一个词可以表达多种意思   ?对一个概念的描述可以有不同的角度   ?同一个词在不同的领域也会有不同的意思   自然语言处理技术最大的难点在于自然语言中有各种级别的歧义难以消除,包括词汇级别、句法级别和语义级别[5]。歧义的存在使计算机在“理解”自然语言时发生了困难,并很可能出现了错误。这无疑为自然语言处理没能为信息检索带来较大帮助提供了一个解释。然而事实上这个解释并不全面。因为和信息检索的效果相比,自然语言处理的很多技术实际上已经有了很高的准确率――尽管直接用两者的准确率进行比较并不科学。   因此,本文对信息检索中使用自然语言处理的研究工作进行综合分析,总结出哪些自然语言处理技术和资源对信息检索有帮助,需要达到怎样的精度才能使信息检索的效果有较大提高,并试图对未来自然语言处理在信息检索中的使用方向进行归纳和展望。   本文按照如下方式组织:第二部分介绍自然语言处理在信息检索中的应用情况;第三部分对自然语言处理对信息检索帮助不大的原因进行分析;第四部分是对未来自然语言处理在信息检索中使用的归纳和展望;第五部分是总结。      2 自然语言处理在信息检索中的应用      自然语言处理包括自然语言处理技术和资源。技术又可分为基本和高级两种,这个分类一方面根据自然语言处理的深度和层次,另一方面则考虑了技术的复杂性和难度。自然语言处理资源主要指的是机器可读的词典。      2.1基本自然语言处理技术的应用   基本自然语言处理技术包括去除停止词、分词、取词根和词性标注等。   2.1.1去除停止词(Stopword)   停止词指的是在文档中出现次数很多而本身没有实际意义的词,例如英文中大部分的介词、冠词等。去除停止词常被用在信息检索系统中,作为文档预处理的一个步骤。通常使用一个停止词表来过滤,并可根据实际的文档集合选择合适的停止词表。   实际使用的信息检索系统例如Web搜索引擎中往往不采用去除停止词这一技术,因为它对于检索效果的提高并没有实质上的帮助,反而可能导致在处理一些查询时得不到好的结果。经典的例子就是“to be or not to be”这个查询。因此,在大多数实际检索系统中停止词也被作为索引项保留下来。   信息检索实验系统中则通常会去除文档中的停止词。尽管仍然不能处理实际系统中可能遇到的一些特殊查询,但完全可以通过实验设置来避免。去除停止词虽然对提高检索效果帮助很小,但可以提高检索效率,这对于实验系统来说已经

文档评论(0)

1亿VIP精品文档

相关文档