汉英跨语言信息检索初探.pdfVIP

下载本文档

1
0
约7.09千字
约 6页
2015-07-30 发布于安徽
举报
版权申诉

汉英跨语言信息检索初探.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

加以论述。 1 跨语言信息检索所使用的语言学资源跨语言信息检索过程中所使用的资源，主要有机器可读词典、机器翻译系统以及语料库资源。 1．1基于机器可读词典(machinereadable 典，将用户提交的检索式翻译成目标语种，然后进行检索，这是CLIR研究人员首先考虑的方式。MRD面临的挑战之一是如何解决一词多义、一义多词问题，即词汇的消歧问题。为提高查全率，传统的IR解决方式是通过构建主题词表来解决，而互联网非结构化、巨量的信息资源，表明构建词表模式进行CLIR没有取得更多进展。目前采用的消歧技术主要有：通过词典选词，主要选择第一个词义、前N个词义、所有词义等。通过统计词频、共现模型(co—occurrencemodel)方式，也可以提高检索质量。MRD面I临的挑战之二是词典的覆盖度问题，即词典没有收录的词语，如专业名词、机构名称、地名、产品名称、新词等，如何利用词典进行翻译的问题。目前研究主要通过普通词典与专业词典结合、及时更新词典、采取不翻译的方法来处理。微软亚洲研究院自然语言组提出了采用支持向量机识别中文新词的技术。 translation l_2基于机器翻译(machine 息翻译成源语种，能够执行深层次的语法分析，利用丰富的上下文信息，解决一词多义、歧义等问题。目前双语互译翻译系统取得了飞速的发展，在特定的领域具有较高的翻译质量。自动构建与应用有关的翻译技术。语料库可分为平行语料库(parallelcorpus)和比拟 (comparablecorpus)语料库。平行语料库是指同一篇文献，同时用两种或多种语言描述，并由人工或计算机建立不同语种间信息联系的集合。比拟语料库是指同一主题文献，用两种或多种语言描述。显然，平行语料库相对不容易获得。蒙特利尔大学RALI实验室的聂建云、陈江利用平行网页建立中英文统计翻译模型，准确率能达到80％，基本可以满足跨语言信息检索的需要。学术语，为“本体”之义，用来描述事物的本质。ontology的目标。是获取相关领域的知识，确定该领域共同认可的词汇，并明确这些词汇及其相互关系，建立良好的概念层次结构，为系统内各个主题提供对该领域知识的共同理解，可以有效解决查询请求再从查询语言到检索语言之间转换的过程中出现的语义缺失和曲解等问题，双语ontology的 6 重要性在跨语言信息检索等方面逐渐凸现出来。中国科学技术大学的王进等使用本体作为搜索引擎的语义核心，充分利用其在知识表示和语义描述上的特性和优点，将语义处理结合到模型中去。在构建的英汉信息检索平台，对体育类信息的测试中，改进后的CLIR 查全率和查准率平均提高了10％。有研究人员建立了其他专业基于汉英双语语料库的汉英 ontology。 2跨语言信息检索的分类根据在跨语言信息检索过程中所处理的对象，可将跨语言信息检索方法分为： 2．1基于提问式翻译(query 的查询请求翻译成系统支持的多种语言，然后对不同语言的信息集进行查询。这种转化方式是目前实现CLIR的主流思想，它可以很容易地与传统的单语种信息检索技术紧密结合：并且仅对检索提问式翻译，对翻译系统的要求不高。由于用户提交的查询提问式。通常很短，缺乏必要的语境，提问式翻译的准确性尚不能令人满意。为解决这一问题，有学者提出了查询扩展技术。它是通过采取一定的策略，在忠于用户查询目的前提下，对其查询提问式进行适当扩充。目前微软亚洲研究院采取两步伪相关性反馈法 feedback)，具体做法是：首先，使用用户的查询提问式 (two—stagepseudo-relevance 检索，从检索出的前几篇文档中抽取N个出现频率最多的词语。以此为查询扩展，进行二次检索，所得到的结果就是跨语言检索的最终结果。其查询扩展可在翻译前、翻译后、二者兼有三种方式，并且翻译后扩展可以有效提高检索精度。目前，提问式翻译较多地使用机读词典资源，也应用语料库资源。提问式翻译已经形成针对CL{R最为流行的一种技术，其性能一般能够达到相应单语种检索效率的5096～ 75％。先将系统支持的多语种信息翻译成与查询相同的语种，然后用户可以单语种信息进行检索。相对于提问式翻译，文献翻译有更加宽泛的语境信息，可以利用上下文消除翻译的歧义性，以期解决一词多义、一义多词等问题，翻译的准确性较高。例如，美国大型机器翻译系统SYSTRAN，可进行俄英、德英、汉法、汉英机器翻译，每小时可译30～35万个词。但处理非结构化的巨