基于平行语料查询翻译词典改进方法研究.docVIP

下载本文档

3
0
约3.77千字
约 9页
2018-05-15 发布于福建
举报
版权申诉

基于平行语料查询翻译词典改进方法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于平行语料查询翻译词典改进方法研究

基于平行语料查询翻译词典改进方法研究　　[摘要]面对基于双语词典的跨语言检索查询翻译方法中固有的一对多等翻译模糊问题，已有研究成果存在对于非组合型复合词无法进行准确翻译、双语词典和其他翻译资源联合使用引入较大计算开销等弊端。为建立英汉双向跨语言检索实用性系统，在现有的一部包含若干科技词汇和短语的双语科技词典的基础上，着重研究如何引入平行语料来改进已有的双语词典问题。目标是生成一部基于句对齐平行语料的科技类双语概率词典，为跨语言检索查询翻译消歧提供实时性支持。　　[关键词]查询翻译　机读词典　句对齐平行语料　　[分类号]G355 　　　　1　基于双语词典的查询翻译方法　　跨语言信息检索(cross-language information retiev-al,CLlR)是指以一种语言的查询检索出另一种语言信息的检索方法。查询语言称为源语言(SOurcc lan-guage)，要检索的文档语言称为目标语言(target lan-guage)。由于跨语言检索中源语言和目标语言分属不同的语言空间，因此除了要解决一般信息检索问题之外，关键是要在查询和文献表示匹配之前采取措施使二者的语言统一，最终转化为单语言检索模式。查询翻译(query translation)策略是最为常用的语言转化策略，这种方法将用户输入的查询翻译为系统支持的其他语言，然后进行单语言检索。跨语言检索中有三种得到广泛认可的查询翻译方法：机器翻译、基于双语机读词典的翻译(machine readable dictionary，MRD)、基于平行或可比语料的翻译。由于查询通常很短，且不能提供足够的上下文信息，更常见的情况是，查询经常被表示为一个词汇集合，不充足的信息表示束缚了机器翻译系统的手脚，基于双语机读词典的方法是机器翻译系统不错的替代品。目前，大部分信息检索系统仍是基于所谓的“词袋(bag-of-words)”结构，即查询和文档都被分解为同或短语的集合。因此很容易通过查询双语词典或双语术语列表来实现查询的翻译。Ballesteros等指出，基于MRD的翻译方法存在如下问题：①词典中没有的词无法翻译；②词典翻译存在固有的模糊性，并引入了无关信息；③对诸如短语等多词概念的无效翻译降低了翻译的效率。　　上述问题直接导致了跨语言检索??统性能弱于相应的单语言检索系统。Hull等的实验结果表明，翻译歧义和术语缺失是查询翻译的两大错误来源；采用手工翻译多个名词组成的短语可以有效改善检索系统的性能，文献结论有力揭示了多词短语翻译的重要性。Boughanem等提出以双向翻译技术来解决基于MRD的查询翻译问题。假定需要将英文查询式翻译成法语，利用双向翻译方法，先从英一法词典中找到某个英文词的所有法语翻译集；然后，利用法一英词典将每个法语翻译成一组英文词，如果该集合中包含源查询词，此法语翻译就可作为优选翻译。杨辉等将基本词典、专业词典、搭配词典与双语词典混合使用，来改善词典翻译的翻译模糊性问题。囿于MRD方法的固有难题，研究者们开始把目光放在MRD与其他资源的混合使用上。Dong Zhou等将一种混合技术应用于英一中跨语言检索，采用图模型和基于模式的方法解决翻译歧义性和未知术语翻译问题。该方法将源语言查询词的每个候选翻译看作“图”中的一个节点，两节点之间的边用词的共现信息来度量，这些共现信息来源于语料。张金柱等为解决科技领域跨语言检索的查询翻译问题，将MRD与平行语料相结合，针对科技领域词汇的复合词特征，在MRD提供的基本词汇翻译基础上将结果进行组合，再利用平行语料的共现信息进行消歧。引入其他翻译资源拓展了基于MRD的查询翻译方法的消歧信息，这种结合成为基于词典查询翻译方法的一个发展方向。　　本文的研究背景是科技类文献的跨语言检索，正如文献[8]所述，科技文献的特征之一就是文献中的术语多为由多个词汇组成的短语，面对MRD方法中固有的一对多等翻译模糊问题，上述的研究成果大多采用对复合词的各基本词汇翻译进行组合，然后利用其他翻译资源进行过滤消歧处理的方法。这样处理的主要弊端在于：对于非组合型复合词(即：意义不能够由其组成词推断出来的复合词(non-compositional))无法进行准确翻译，而这类复合词在科技领域非常普遍；复合词的多种翻译组合到语料中去消歧会带来很大的计算开销，该方法不具有实时性。本文的研究成果是为建立英汉双向跨语言检索实用性系统服务的，在现有的一部带类别信息、包含若干科技词汇和短语的英汉双语科技词典的基础上，研究如何引入平行语料来改进已有的双语词典。本文的目标是生成一部基于句对齐平行语料的科技类双语概率词典，为跨语言检索查询翻译消歧提供实时性支持。　　　　2　基于平行语料的带概率的双语词典　　　　2.1 双语词典的翻译概