使用维基百科的查询扩展及概念库的跨语言信息检索剖析.docx

下载文档 降价啦

1
0
约6.71千字
约 13页
2017-06-03 发布于湖北
举报
版权申诉
保障服务

使用维基百科的查询扩展及概念库的跨语言信息检索剖析.docx

1、本文档共13页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

使用维基百科的查询扩展及概念库的跨语言信息检索剖析

使用维基百科的查询扩展及概念库的跨语言信息检索（文献自主翻译）摘要：本文阐述在跨语言信息检索过程中，在线免费语言资源在翻译和拓展查询方面的使用。在近期的一次研究中，我们提出了一种查询方法，首先将查询内容在语言网络中用两种机器翻译系统进行翻译，再使用线上辞典进行拓展，以此来翻译复合词或词组。一个概念库用来比对返回的翻译与原始的查询词汇，以消除错误翻译。为了评估上述方法我们建立了一个跨语言信息检索系统，并且使用了NTCIR1数据集中的科技文献。结果上述方法实现了高精度。然而在科技文献中专有名词（人名、地名）出现频率较低，而在信息检索中，专有名词显示出了特殊的难题。考虑到专有名词通常为未知词汇，它们在单语言辞典中都很难找到，更不用说双语辞典了。此外，初次用户的查询通常都不能准确地描述他们所要的信息。为了解决这个问题，提供更好的查询反馈，常用的方法是查询扩展。维基百科除了被用来翻译复合词或词组外，也被用来结合概念库进行查询扩展。我们用NTCIR1数据集和NTCIR6数据集对上述方法进行了评估，结果是这套方案实现了高精度的跨语言信息检索系统，层次要高于包含NTCIR1和NTCIR6的系统。关键词：跨语言信息检索，CLIR，语言资源，概念库，语言网络，维基百科（一）简介：网络中电子文档数目的迅猛增加，导致包含用户所需信息的文档不再局限于用户母语所撰写的文档。因此，以一种语言查询找到另一种语言的文档的信息检索——跨语言信息检索系统，成为了一项热门研究课题。借助NTCIR，有多个组织对跨语言信息检索进行了详细的研究。为了获取以其他语言撰写的文档，检索词会被机器翻译系统进行翻译。由此可见，在跨语言翻译系统中，除却检索模型之外，语言资源和语言处理功能也是极为重要的组成部分。检索模型包括Sparck Joe提出的概率检索模型，以及Salton、McGill共同提出的向量空间检索模型。这两种模型在跨语言信息检索中均已被采用。语言资源包括辞典，叙词表，以及双语对照。语言处理包括语构分析和机器翻译等。为了提高跨语言翻译的性能，利用现有的各种翻译系统，优化检索模型，一个具有更高准确性的检索词翻译系统诞生了。辞典的局限性和词语的多义性是检索词翻译的两大障碍，虽然大量的研究已经将语句级翻译和多义性辞典应用于关键词翻译中，但上述问题仍旧存在。应用户需求，在之前的一篇文章中我们已经提出了一个检索词翻译系统的改进方案。这个改进后的系统在跨语言信息检索系统中有较高的准确度。我们使用了两种机器翻译系统，以及一个双语辞典用于翻译复合词及词组。此外还利用概念库，增加了一个过滤步骤，这一点在之前的文章中也有所提及。我们提交了针对科技文献的测试报告，这些科技文献仅包含有限的专有名词，结果准确度较高，但是随着检索词中专有名词的出现，其准确率会相应降低。这种情况之所以出现，可能是因为人名地名等专有名词在翻译时会被作为未知词汇，而建立包含这些词的辞典又具有相当答的难度。在信息检索中，专有名词可以说是一个特殊的难题。为了解决这一问题，在本文中我们将使用一片报纸文章的标题作为检索目标来评估当前的系统，这篇文章涉及到一系列的专有名词，在此之后将给出利用维基百科来翻译大量专有名词的方法。除此之外，初次用户的查询通常都不能准确地描述他们所要的信息，例如用户使用了文献中不经常使用的词汇，或者仅输入了对所需信息的部分描述。为了解决这个问题，提供更好的查询反馈，常用的方法是查询扩展。问题是，跨语言信息检索中的检索词扩展经常会发生错译，为了避免出错，我们引入了使用维基百科页面链接文本的方法，因为每个页面的标题都有用其他语言表示的链接。但是，现有的链接可能与维基页面并无关联，例如在“网球”页面上，就并不能找到“法国”的链接来作为拓展。因此我们规定了一个类似于维基百科用概念库过滤检索词的方法来进行拓展，以提高准确度。（二）背景：这一部分介绍跨语言处理领域的现有研究以及一些仍待解决的问题，此外将阐述本文中所使用的技术方法。2.1相关性研究跨语言信息检索分为两大模块：翻译模块与信息查询模块。在查询词翻译方面，很多研究都专注于语句级翻译和双语辞典的使用。基于辞典的翻译简单易用，但对两大关键词翻译问题无能为力。Aitao Chen曾实践过用两部翻译辞典将汉语短语与英语相对应，但是，所有这些方案都有局限性。如果只有一部双语辞典供翻译参考，那么歧义性问题肯定会存在且不容忽视。机器翻译是检索词翻译所使用的另一种直接的方法。Huang 曾经提出机器翻译法，机器翻译法是基于语境的翻译，将输入的句子转化为输出句，如果翻译器错译了某个关键词，这个错误就会在输出中显现，造成错误的检索结果。另一种方法是查询扩展，有三种常见的实现方法：全局查询扩展使用语料库统计法，在语料库中添加同义词或概念相近的词构成词网。但是如果查询词并不存在