- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
硕 士 学 位 论 文
面向生物医学领域的跨语言信息检索
Research on Cross-Language Information Retrieval for
Biomedicine
作 者 姓 名: 宁健
学科、 专业: 计算机应用技术
学 号:
指 导 教 师: 林鸿飞 教授
完 成 日 期: 2010.12
大连理工大学
Dalian University of Technology
大连理工大学学位论文独创性声明
作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究
工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外,
本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请
学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献
均已在论文中做了明确的说明并表示了谢意。
若有不实之处,本人愿意承担相关法律责任。
学位论文题目:
作 者 签 名 : 日期: 年 月 日
大连理工大学硕士学位论文
摘 要
随着互联网的快速发展,人们非常依赖于互联网来获取资源。由于世界语言的多样
化和用户所掌握语言的差异性,导致了自由获取互联网中的不同语言的信息具有很大的
困难,所以对跨语言信息检索具有重大的理论和实际价值。
潜在语义分析模型在跨语言信息检索领域的应用取得了良好的效果,因为该方法能
够很好的解决同义词和多义词带来的歧义问题,因为潜在语义分析能够将同义的但是属
于不同语言的词汇映射到语义空间中距离相近的点上,在语义空间对文本之间的关系进
行分析。然而由于潜在语义分析需要对原始词-文本空间进行降维,所以选取降维因子k
存在一定的风险:如果k值很高,则达不到理想的降维效果;如果k值过低,则会损失很
有有用的特征,对检索精度造成影响。
本文采用基于 SVD 和NMF 矩阵分解相结合的改进潜在语义分析的方法为生物医学
文献双语摘要进行建模,该模型将英汉双语摘要映射到同一语义空间,不需要外部词典
和知识库,自动处理不同语言之间的对应关系,在双语空间中进行检索,并综合考虑两
种矩阵分解结果。充分利用医学文献双语摘要语料中的锚信息,通过不同的 k 值构建多
个检索模型,计算每个模型的信任度,使得多个模型都对查询和文本的相似度做出贡献。
在语义空间上进行项与项、文本与文本、项与文本之间的相似度计算,实现了双语摘要
的交叉检索,取得了较好的实验效果。
以往的搜索引擎计算文本之间关系的方法往往是计算文本相似度,而实际上文本相
关性更侧重于强调文档关系的内在特征,更能代表文本之间的关系。为了提高检索精度,
本文采用一种基于主题的文档检索模型,基于 LDA 模型的主题分布,从主题层面上对
文档和查询进行建模,并且从文本相关性方面考虑文本之间的关系。为了弥补 LDA 模
型参数估计较为粗糙问题产生的噪声带来的影响,本文又采用模型平均化的思想,构建
多个潜在语义模型和基于 LDA 的文本相关度模型,综合考虑多个模型的检索结果。实
验结果证明,该方法使得潜在语义模型对 LDA 模型起到了良好的平滑作用,提高了检
索的召回率。
关键词:改进潜在语义分析;语义空间;双语语料;交叉检索; LDA模型
- I -
面向生物医学领域的跨语言信息检索
Research on Cross-Language Information Retrie
文档评论(0)