基于统计语言模型和Passage特征的信息检索模型研究.docVIP

基于统计语言模型和Passage特征的信息检索模型研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
--完美WORD文档DOC格式,可在线免费浏览全文和下载,是一篇优秀的毕业设计论文,可为大学生本专业本院系本科专科大专和研究生学士硕士相关类学生提供毕业论文范文范例指导,也可为要代写发表职称论文的提供参考。

国内图书分类号:TP391.2 国际图书分类号: 681.37 工学硕士学位论文 基于统计语言模型和 Passage 特征的 信息检索模型研究 硕 士 研 究 生: 党可 导 师: 赵铁军教授 申 请 学 位: 工学硕士 学 科 、 专 业: 计算机科学与技术 所 在 单 位: 计算机科学与技术学院 答 辩 日 期: 2007 年 7 月 授予学位单位: 哈尔滨工业大学 Classified Index:TP391.2 U.D.C.: 681.37 Dissertation for the Master Degree in Engineering RESEARCH ON INFORMATION RETRIEVAL MODELS BASED ON STATISTICAL LANGUAGE MODEL AND PASSAGE FEATURE Candidate: Supervisor: Academic Degree Applied for: Specialty: Affiliation: Date of Defence:  Dang Ke Prof. Zhao Tiejun Master of Engineering Computer Science and Technology School of Computer Science and Technology July, 2007 Degree-Conferring-Institution: Harbin Institute of Technology 哈尔滨工业大学工学硕士学位论文 摘要 信息检索模型是对信息检索任务及实现方法的一种抽象描述。信息检 索模型是信息检索理论研究的一个核心内容,因此对于它的研究有重要的理 论意义和实用价值。另外,统计语言模型自从被应用到信息检索领域就被认 为是优秀的信息检索模型框架。该模型框架已经被广泛地研究。passage 是 信息检索领域中被利用的有效语言学特征之一。本文主要研究对象是基于统 计语言模型框架和 passage 特征的信息检索模型。 具体地讲,本文研究主要内容如下: 1. 本文考察了经典信息检索模型及其扩展模型,分析了应用于信息检 索领域的统计语言模型及其平滑方法。同时,本文讨论了 passage 的分类。 然 后 , 本 文 提 出 了 一 种 新 的 信 息 检 索 模 型 ─ ─ PJM。 通 过 扩 展 Jelinek- Mercer 平滑方法,该模型把 passage 特征成功地引入到了统计语言模型框架 中。在 TREC 测试集上的实验结果表明,和传统的简单语言模型相比,新 模型性能有了显著的提高。为了对模型进行实验,本文介绍了实验使用的平 台:Lemur。 2. 本文进一步研究了如何在语言模型框架下更好地利用 passage 特征。 本文分析了信息检索领域对 passage 特征研究的两个方向:关于 passage 形 式的研究和如何利用已有 passage 的研究。此外,本文总结了两个研究方向 的具体做法,为以后的相关研究奠定了基础。然后本文比较了别的学者提出 的方法与新的 PJM 模型,用实验证明了在统计语言模型框架下综合 passage 级别和文档级别两者信息相对仅仅使用 passage 级别信息也可以产生检索效 果的提升。 3. 本文通过结合不同平滑方法(Jelinek-Mercer 和 Dirchlet),在 PJM 模 型基础上扩展出了三个变体模型。实验结果表明这三个新模型的检索效果也 显著超越了原有的简单语言模型,同时与 PJM 模型检索性能相当。 关键词 信息检索模型;统计语言模型;passage;平滑 -I- 哈尔滨工业大学工学硕士学位论文 Abstract The Information Retrieval(IR) model is the abstract description of the IR task and implementation method. IR model is the core content of the IR research, so the research regarding IR model is of great theoretical and practical significance. In addition, since the statistical language model was applied to the IR area, it has been regarded as a very good IR framework and been widely researched. Passage is an effecti

文档评论(0)

smdh + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档