信息检索与自然语言处理中的几个关键问题分析.pdf

下载文档 降价啦

26
0
约21.54万字
约 139页
2015-10-20 发布于安徽
举报
保障服务

信息检索与自然语言处理中的几个关键问题分析.pdf

本论文系统地介绍了作者在信息检索、机器学习以及问题回答等领域的研究的：[作。随着因特网的高速发展，信息检索技术已成为当今计算机信息处理领域最热门的技术之一。根据第二章对信息检索技术的深入讨论，第三章介绍了一个中文信息搜索引擎的主要框架和各部分实现算法。／该搜索引擎通过了专家的认证，成功地应用于上海图书馆和复旦校园网等领域，取得了广泛的好评，还获得了上海科技进步三等奖(2001)。不仅如此，在第三章中还提出了一种新颖的基于文档似然比的概率检索模型及其相应的查询反馈算法。在第九届文本检索会议(TREC一9)的跨语言信息检索评测中应用了该模型，取得了第三名，达到了和世界最优水平可比较的检索性能。户／，第四章介绍了最大熵原理及其在自然语言处理领域中的两个应用。(根据对最大熵模型的深入研究，设计并实现了一个基于最大熵模型的中英文名词短语 04％的召回率和准确率，十分识别器，在英文评测语料上达到了93．31％和93 接近国际最优水平(94．18％，93．55％)。此外，提出了一个新颖的基于该模型的英文名词短语指代消解算法，通过使用该模型，有效地综合各种的知识源，值)。l吖在本文的第五章中，介绍了另一个机器学习算法获取知识的成功范例，即使用最小描述长度原理(MDL)来学习适合于语法分析的语法规则。f通过和理想情况比较，首次发现了传统基于MDL原理的语法学习算法的缺陷，并提出了一种新颖的基于MDL原理的两步语法学习算法。它克服了原有算法的不足，学习出适合于语法分析的高质量的语法规则。相关文章发表于第七届语法分析 2001，ACL)。l，，／国际会议上(IWPT 在第六章中，研究了将自然语言处理技术和传统信息检索技术相结合，来回答自然语言表述的问题。由于传统信息检索引擎存在不少缺陷，文本检索会议(TREC)创立了问题回答的评测项目。通过实现一个这样的系统，集成了传统搜索引擎技术、自然语言处理技术以及必要的知识，试图使传统搜索引擎具有一定的“智能”，能理解人们的问题，帮助人们找到所需的信息。系统在TREC 评测会议上取得了初步的成功。 1 关键词：∈跨语言产信启、检索，最大熵模型，最短描述长度，自然语言处哩，问题回答摘要 Abstract fieldoftheInformationRetrieval the inthe introducesresearchwork Thethesis Machine andthe the Answeringthoroughly LearningQuestion inthe work The Intenet witnessesthe oftheresearch rapid growth blooming Information theoreticdiscussionofthe Retrieval．Atierthe ofInformation field frameworkand o

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

信息检索与自然语言处理中的几个关键问题分析.pdf