硕士学位论文大连理工大学信息检索研究室.pdf

硕士学位论文大连理工大学信息检索研究室.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
硕 士 学 位 论 文 面向生物医学领域的跨语言信息检索 Research on Cross-Language Information Retrieval for Biomedicine 作 者 姓 名: 宁健 学科、 专业: 计算机应用技术 学 号: 指 导 教 师: 林鸿飞 教授 完 成 日 期: 2010.12 大连理工大学 Dalian University of Technology 大连理工大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学位论文题目: 作 者 签 名 : 日期: 年 月 日 大连理工大学硕士学位论文 摘 要 随着互联网的快速发展,人们非常依赖于互联网来获取资源。由于世界语言的多样 化和用户所掌握语言的差异性,导致了自由获取互联网中的不同语言的信息具有很大的 困难,所以对跨语言信息检索具有重大的理论和实际价值。 潜在语义分析模型在跨语言信息检索领域的应用取得了良好的效果,因为该方法能 够很好的解决同义词和多义词带来的歧义问题,因为潜在语义分析能够将同义的但是属 于不同语言的词汇映射到语义空间中距离相近的点上,在语义空间对文本之间的关系进 行分析。然而由于潜在语义分析需要对原始词-文本空间进行降维,所以选取降维因子k 存在一定的风险:如果k值很高,则达不到理想的降维效果;如果k值过低,则会损失很 有有用的特征,对检索精度造成影响。 本文采用基于 SVD 和NMF 矩阵分解相结合的改进潜在语义分析的方法为生物医学 文献双语摘要进行建模,该模型将英汉双语摘要映射到同一语义空间,不需要外部词典 和知识库,自动处理不同语言之间的对应关系,在双语空间中进行检索,并综合考虑两 种矩阵分解结果。充分利用医学文献双语摘要语料中的锚信息,通过不同的 k 值构建多 个检索模型,计算每个模型的信任度,使得多个模型都对查询和文本的相似度做出贡献。 在语义空间上进行项与项、文本与文本、项与文本之间的相似度计算,实现了双语摘要 的交叉检索,取得了较好的实验效果。 以往的搜索引擎计算文本之间关系的方法往往是计算文本相似度,而实际上文本相 关性更侧重于强调文档关系的内在特征,更能代表文本之间的关系。为了提高检索精度, 本文采用一种基于主题的文档检索模型,基于 LDA 模型的主题分布,从主题层面上对 文档和查询进行建模,并且从文本相关性方面考虑文本之间的关系。为了弥补 LDA 模 型参数估计较为粗糙问题产生的噪声带来的影响,本文又采用模型平均化的思想,构建 多个潜在语义模型和基于 LDA 的文本相关度模型,综合考虑多个模型的检索结果。实 验结果证明,该方法使得潜在语义模型对 LDA 模型起到了良好的平滑作用,提高了检 索的召回率。 关键词:改进潜在语义分析;语义空间;双语语料;交叉检索; LDA模型 - I - 面向生物医学领域的跨语言信息检索 Research on Cross-Language Information Retrie

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档