信息检索与自然语言处理中的几个关键问题分析.pdf

信息检索与自然语言处理中的几个关键问题分析.pdf

本论文系统地介绍了作者在信息检索、机器学习以及问题回答等领域的研 究的:[作。 随着因特网的高速发展,信息检索技术已成为当今计算机信息处理领域最 热门的技术之一。根据第二章对信息检索技术的深入讨论,第三章介绍了一个 中文信息搜索引擎的主要框架和各部分实现算法。/该搜索引擎通过了专家的认 证,成功地应用于上海图书馆和复旦校园网等领域,取得了广泛的好评,还获 得了上海科技进步三等奖(2001)。不仅如此,在第三章中还提出了一种新颖的 基于文档似然比的概率检索模型及其相应的查询反馈算法。在第九届文本检索 会议(TREC一9)的跨语言信息检索评测中应用了该模型,取得了第三名,达 到了和世界最优水平可比较的检索性能。户/ , 第四章介绍了最大熵原理及其在自然语言处理领域中的两个应用。(根据对 最大熵模型的深入研究,设计并实现了一个基于最大熵模型的中英文名词短语 04%的召回率和准确率,十分 识别器,在英文评测语料上达到了93.31%和93 接近国际最优水平(94.18%,93.55%)。此外,提出了一个新颖的基于该模型 的英文名词短语指代消解算法,通过使用该模型,有效地综合各种的知识源, 值)。l吖 在本文的第五章中,介绍了另一个机器学习算法获取知识的成功范例,即 使用最小描述长度原理(MDL)来学习适合于语法分析的语法规则。f通过和理 想情况比较,首次发现了传统基于MDL原理的语法学习算法的缺陷,并提出 了一种新颖的基于MDL原理的两步语法学习算法。它克服了原有算法的不足, 学习出适合于语法分析的高质量的语法规则。相关文章发表于第七届语法分析 2001,ACL)。l,,/ 国际会议上(IWPT 在第六章中,研究了将自然语言处理技术和传统信息检索技术相结合,来 回答自然语言表述的问题。由于传统信息检索引擎存在不少缺陷,文本检索会 议(TREC)创立了问题回答的评测项目。通过实现一个这样的系统,集成了传 统搜索引擎技术、自然语言处理技术以及必要的知识,试图使传统搜索引擎具 有一定的“智能”,能理解人们的问题,帮助人们找到所需的信息。系统在TREC 评测会议上取得了初步的成功。 1 关键词:∈跨语言产信启、检索,最大熵模型,最短描述长度,自然语言处 哩,问题回答 摘要 Abstract fieldoftheInformationRetrieval the inthe introducesresearchwork Thethesis Machine andthe the Answeringthoroughly LearningQuestion inthe work The Intenet witnessesthe oftheresearch rapid growth blooming Information theoreticdiscussionofthe Retrieval.Atierthe ofInformation field frameworkand o

文档评论(0)

1亿VIP精品文档

相关文档