硕士学位论文大连理工大学信息检索研究室.pdf

下载文档 降价啦

5
0
约1.91万字
约 16页
2019-05-01 发布于天津
举报
版权申诉
保障服务

硕士学位论文大连理工大学信息检索研究室.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

硕士学位论文面向生物医学领域的跨语言信息检索 Research on Cross-Language Information Retrieval for Biomedicine 作者姓名：宁健学科、专业：计算机应用技术学号：指导教师：林鸿飞教授完成日期： 2010.12 大连理工大学 Dalian University of Technology 大连理工大学学位论文独创性声明作者郑重声明：所呈交的学位论文，是本人在导师的指导下进行研究工作所取得的成果。尽我所知，除文中已经注明引用内容和致谢的地方外，本论文不包含其他个人或集体已经发表的研究成果，也不包含其他已申请学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。若有不实之处，本人愿意承担相关法律责任。学位论文题目：作者签名：日期：年月日大连理工大学硕士学位论文摘要随着互联网的快速发展，人们非常依赖于互联网来获取资源。由于世界语言的多样化和用户所掌握语言的差异性，导致了自由获取互联网中的不同语言的信息具有很大的困难，所以对跨语言信息检索具有重大的理论和实际价值。潜在语义分析模型在跨语言信息检索领域的应用取得了良好的效果，因为该方法能够很好的解决同义词和多义词带来的歧义问题，因为潜在语义分析能够将同义的但是属于不同语言的词汇映射到语义空间中距离相近的点上，在语义空间对文本之间的关系进行分析。然而由于潜在语义分析需要对原始词-文本空间进行降维，所以选取降维因子k 存在一定的风险：如果k值很高，则达不到理想的降维效果；如果k值过低，则会损失很有有用的特征，对检索精度造成影响。本文采用基于 SVD 和NMF 矩阵分解相结合的改进潜在语义分析的方法为生物医学文献双语摘要进行建模，该模型将英汉双语摘要映射到同一语义空间，不需要外部词典和知识库，自动处理不同语言之间的对应关系，在双语空间中进行检索，并综合考虑两种矩阵分解结果。充分利用医学文献双语摘要语料中的锚信息，通过不同的 k 值构建多个检索模型，计算每个模型的信任度，使得多个模型都对查询和文本的相似度做出贡献。在语义空间上进行项与项、文本与文本、项与文本之间的相似度计算，实现了双语摘要的交叉检索，取得了较好的实验效果。以往的搜索引擎计算文本之间关系的方法往往是计算文本相似度，而实际上文本相关性更侧重于强调文档关系的内在特征，更能代表文本之间的关系。为了提高检索精度，本文采用一种基于主题的文档检索模型，基于 LDA 模型的主题分布，从主题层面上对文档和查询进行建模，并且从文本相关性方面考虑文本之间的关系。为了弥补 LDA 模型参数估计较为粗糙问题产生的噪声带来的影响，本文又采用模型平均化的思想，构建多个潜在语义模型和基于 LDA 的文本相关度模型，综合考虑多个模型的检索结果。实验结果证明，该方法使得潜在语义模型对 LDA 模型起到了良好的平滑作用，提高了检索的召回率。关键词：改进潜在语义分析；语义空间；双语语料；交叉检索； LDA模型 - I - 面向生物医学领域的跨语言信息检索 Research on Cross-Language Information Retrie