本论文系统地介绍了作者在信息检索、机器学习以及问题回答等领域的研
究的:[作。
随着因特网的高速发展,信息检索技术已成为当今计算机信息处理领域最
热门的技术之一。根据第二章对信息检索技术的深入讨论,第三章介绍了一个
中文信息搜索引擎的主要框架和各部分实现算法。/该搜索引擎通过了专家的认
证,成功地应用于上海图书馆和复旦校园网等领域,取得了广泛的好评,还获
得了上海科技进步三等奖(2001)。不仅如此,在第三章中还提出了一种新颖的
基于文档似然比的概率检索模型及其相应的查询反馈算法。在第九届文本检索
会议(TREC一9)的跨语言信息检索评测中应用了该模型,取得了第三名,达
到了和世界最优水平可比较的检索性能。户/
,
第四章介绍了最大熵原理及其在自然语言处理领域中的两个应用。(根据对
最大熵模型的深入研究,设计并实现了一个基于最大熵模型的中英文名词短语
04%的召回率和准确率,十分
识别器,在英文评测语料上达到了93.31%和93
接近国际最优水平(94.18%,93.55%)。此外,提出了一个新颖的基于该模型
的英文名词短语指代消解算法,通过使用该模型,有效地综合各种的知识源,
值)。l吖
在本文的第五章中,介绍了另一个机器学习算法获取知识的成功范例,即
使用最小描述长度原理(MDL)来学习适合于语法分析的语法规则。f通过和理
想情况比较,首次发现了传统基于MDL原理的语法学习算法的缺陷,并提出
了一种新颖的基于MDL原理的两步语法学习算法。它克服了原有算法的不足,
学习出适合于语法分析的高质量的语法规则。相关文章发表于第七届语法分析
2001,ACL)。l,,/
国际会议上(IWPT
在第六章中,研究了将自然语言处理技术和传统信息检索技术相结合,来
回答自然语言表述的问题。由于传统信息检索引擎存在不少缺陷,文本检索会
议(TREC)创立了问题回答的评测项目。通过实现一个这样的系统,集成了传
统搜索引擎技术、自然语言处理技术以及必要的知识,试图使传统搜索引擎具
有一定的“智能”,能理解人们的问题,帮助人们找到所需的信息。系统在TREC
评测会议上取得了初步的成功。
1
关键词:∈跨语言产信启、检索,最大熵模型,最短描述长度,自然语言处
哩,问题回答
摘要
Abstract
fieldoftheInformationRetrieval
the inthe
introducesresearchwork
Thethesis
Machine andthe
the Answeringthoroughly
LearningQuestion
inthe
work
The Intenet witnessesthe oftheresearch
rapid growth blooming
Information
theoreticdiscussionofthe
Retrieval.Atierthe
ofInformation
field
frameworkand o
您可能关注的文档
最近下载
- 人教(统编)版高中语文必修上册 详解答案.docx VIP
- 高一第二学期语文期末试卷.docx VIP
- 年产1.5万吨竹纤维餐具热压成型项目可行性研究报告.docx
- 《铁路货物站台面及堆货场铺面》壹站(02)8029.pdf VIP
- 公司2025年度民主生活会领导班子对照检查材料(五个带头) (3).docx VIP
- 译林版高中英语选修一单词默写表.pdf VIP
- 上海市高考语文复习:文言文精短翻译练习100篇(答案).pdf VIP
- CSCO非小细胞肺癌诊疗指南2025.docx VIP
- 2025年第二学期高一语文期末试卷及答案.docx VIP
- 高三英语一轮语法复习《非谓语动词》精品课件.ppt VIP
原创力文档

文档评论(0)