跨语言查询扩展技术的研究进展.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
跨语言查询扩展技术的研究进展

跨语言查询扩展技术的研究进展   摘 要 跨语言查询扩展是改善和提高跨语言信息检索系统检索性能的核心技术之一。本文以跨语言查询扩展技术的发展为主线,将目前的研究方法主要分为三类:基于相关反馈的跨语言查询扩展、基于潜在语义的跨语言查询扩展和基于本体的跨语言查询扩展。对这三类跨语言查询扩展技术的研究进展进行了详细的介绍和阐述,并对它们的优缺点进行分析,最后对其发展前景进行展望。   【关键词】跨语言信息检索 查询扩展 相关反馈 潜在语义分析 本体   随着互联网的迅速发展和用户需求的提高,单一语种检索的局限性越来越明显,人们已不再满足于在单一语种中进行检索,而是迫切希望能检索到更多其它语种的相关信息。由于用户所掌握语言的有限性和网络语言的多样化导致当前用户从互联网自由获取多种语言信息的困难。为了消除语言障碍,将网络信息资源提供给不同的用户,跨语言信息检索应运而生,并已成为突破信息存取语言障碍的关键。   跨语言信息检索(Cross-Language Information Retrieval, CLIR)是指用户以一种语言检索出另一种或多种语言信息的方法。跨语言信息检索涉及至少两种以上语言,其关键问题是如何实现源语言与目标语言之间翻译匹配的问题。目前跨语言信息检索方法主要有查询翻译、文档翻译、中间语言翻译和基于同源匹配等四种方法。可见,翻译可以说是跨语言信息检索技术的核心问题,然而,翻译的歧义性和多义性问题常常导致跨语言信息检索性能低下。   跨语言查询扩展(Cross-Language Query Expansion) 是解决跨语言信息检索中查询翻译歧义和多义性问题的核心技术之一,它通过对用户的初始查询进行扩展和重构,把与原查询相关的词或者与原查询语义相关的词添加到原查询,构建更明确清晰的新查询,然后再次检索,以弥补原查询信息的不足,提高跨语言检索性能。跨语言查询扩展按其发生的先后,可以分为翻译前查询扩展、翻译后查询扩展和结合翻译前翻译后查询扩展三种。与单语言查询扩展类似,跨语言查询扩展词的来源主要有三种:一是来自于初检结果相关文档;二是基于语料库的方法;三是利用聚类技术或文本挖掘技术从文档集中获取查询扩展词。目前跨语言查询扩展研究主要集中在基于相关反馈、基于潜在语义和基于本体的方法。本文主要对这三类跨语言查询扩展技术的研究进展进行详细的介绍和阐述,以期对感兴趣的同行有一定的参考作用。   1 基于相关反馈的跨语言查询扩展   相关反馈是一种查询重构技术,其在跨语言信息检索过程中利用跨语言初检结果的前列文档作为扩展词的来源,实现跨语言查询扩展,然后再进行二次检索。相关反馈技术按照用户是否参与可分为用户相关反馈(也称为交互式相关反馈)和伪相关反馈(也称为自动相关反馈)。   1.1 用户相关反馈   基于用户相关反馈的跨语言查询扩展融入了用户的参与,用户不仅能够对初检结果文档进行相关性判断,而且还可以控制和修改查询。其基本思想是:由用户对初检结果的文档进行相关性判断,系统根据这些判定重新构建更接近用户需求的查询,然后再次检索文档。   国内外学者对基于用户相关反馈的跨语言查询扩展都作了一些研究,Orengo等[1]基于用户相关反馈进行了英语-葡萄牙语跨语言查询扩展实验,由27位葡萄牙语志愿者对检索结果列表的前10篇文档进行相关性判断,然后再进行跨语言查询扩展,研究成果表明该方法有效的提高跨语言检索性能。吴丹[2]将用户相关反馈应用于跨语言信息检索全过程,由54位志愿者分别采用三种方法对检索主题进行跨语言信息检索并对检索结果进行相关性判断与反馈,根据反馈结果进行查询扩展,实验结果表明用户的参与有助于提高查询准确率,能够获得较好的检索效果。但该方法的主要缺陷是需要大量的用户参与,给用户带来很大的负担,成本较高。   1.2 伪相关反馈   基于伪相关反馈的跨语言查询扩展方法不需要用户参与,完全自动进行,是一种相对简单实用的自动优化策略,被大量应用于相关反馈实验中。其基本思想是:通过假定检索结果列表的前n篇文档为相关文档并将其作为扩展词来源进行查询扩展,再进行二次检索。   其典型算法是微软亚洲研究院提出的两步伪相关反馈法[3]。该方法首先使用源语言查询式进行检索,然后从检索结果的前n篇文档中选出出现频率最高的m个词作为查询扩展词,再用双语词典将源语言查询词翻译为目标语言查询词进行二次检索,实验结果表明该方法能够较好的提高跨语言检索性能。但其主要缺点是过分依赖于前n篇文档的精确度,当检索到的前n篇文档与查询式无关时,会连带造成扩展偏差。   Paul McNamee[4]以及吴丹等[5]在文献[3]基础上对基于伪相关反馈的跨语言查询扩展进行了深入研究,并对翻译前查询扩展、翻译后查询扩展以及两者不同的组合进行

文档评论(0)

151****1926 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档