- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于短语结构抽取和对齐的机器翻译模板自动获取方法
胡日勒,宗成庆,徐波
(中国科学院自动化研究所 模式识别国家重点实验室,北京 100080);
E-mail: {rlhu,cqzong,xubo}@nlpr.ia.ac.cn
摘要: 本文提出了一种从未经标注的双语口语语料库中自动获取机器翻译模板的方法。这种
算法是一种无监督的、基于统计的、数据驱动的方法。这种方法有两个基本的步骤。首先,通
过语法归纳分别从源语言和目标语言中获取语意类和短语结构类。然后,利用双语划界文法将
短语结构类进行对齐。对齐的结果经过后处理就可以得到翻译的模板。初步的试验结果表明,
本方法可以达到比较令人满意的效果,是有效的和切实可行的。
关键词: 双语语法归纳;翻译模板获取;结构对齐;机器翻译
引言
随着语料库技术的发展,越来越多的双语语料库资源被应用于机器翻译和自然语言理解中
的知识获取。机器翻译的模板作为机器翻译系统中的一种重要的知识,受到了广泛的关注。在
很多机器翻译和机助翻译系统中,机器翻译模板都是一种不可或缺的资源。因此,机器翻译模
板自动获取方法的研究具有重要的现实意义。在本文中,我们提出了一种从英汉对齐的双语语
料库中基于短语结构抽取和对齐的自动获取机器翻译模板的方法。
在早期的基于实例的机器翻译系统中,翻译模板往往是手工从语料库中提取出来的。Kitano
在他的系统中采取了一种翻译规则的手工编码的方式[1]。Sato也建立了一个基于实例的机器翻
译系统[2],在这个系统中,采用了人工撰写的匹配表达式作为机器翻译的模板。但是,当语料
库越来越大的时候,这种人工的方法就会变得越来越困难,会带来越来越多的错误。
一些学者也提出了自动从语料库中获取模板的方法,如Güvenir和Cicekli等人提出的基于类
比学习的方法[3][4]和Watanabe 、Imamura等人提出的基于结构对齐的方法[5][6]。基于类比学习
的方法是通过比较语料库中的翻译实例的相同部分和不同部分,加以归纳,将不同的部分进行
变量置换而得到翻译模板。这种方法需要非常大规模而且存在大量相似句子的双语语料库。基
于结构对齐的方法遵循着一个“分析-分析-匹配”的过程[7]。这种方法首先分别对两种语言
进行句法分析,然后根据一定的启发式算法进行双语的结构的匹配。这种方法同时需要两种语
言的高精度的句法分析器,就目前来说,尤其对于汉语,很难找到一个可靠的句法分析工具。
吕雅娟[9]等人提出了一种基于单语句法分析的结构对齐方法,取得了不错的效果,但是仍然需
要以句法分析作为基础。
在本文当中,我们提出了一种基于统计的、数据驱动的机器翻译模板自动获取方法。这种
方法的基础是双语的语法归纳(grammar induction )以及基于双语划界文法(Bracketing
Transduction Grammar (BTG ))的结构对齐。本文的剩余部分是这样安排的:第1部分介绍模板
获取系统的系统架构;第2部分分别介绍两部分基本算法,即双语的语法归纳和基于双语划界文
法的对齐;第3部分介绍实验结果以及分析;第4部分为结语。
1 系统架构简介
基于结构对齐的模板获取方法是目前模板获取研究中的主要方法,许多学者在这个研究领
域已经做了大量的工作。但是,由于难以获得足够精确的句法分析的结果(尤其是中文),使这
种方法的应用受到了一定的限制。因此,我们致力于找到一种途径来避免使用句法分析的结果。
在本文当中,我们使用双语的语法归纳作为短语结构提取的方法。
我们的机器翻译模板获取系统的架构如图1所示:
句子对齐
双语语料
中文
分词 语法归纳
语法归纳
对齐
翻译模板
您可能关注的文档
最近下载
- YS∕T 575.23-2021 铝土矿石化学分析方法 第23部分:元素含量的测定 X射线荧光光谱法.pdf
- 2025至2030中国燃料乙醇行业现状调查及投资前景策略分析报告.docx
- 智能网联汽车2025年智能网联汽车测试评价体系报告.docx
- 公司申购单模板.pdf VIP
- 高校电子课件:职业生涯管理(第五版).ppt
- 部编版小学语文六年级上册第八单元作业设计.docx
- 中长导管临床应用.pptx VIP
- 第二类精神药品经营企业监督检查要点.pptx
- 《教育强国建设规划纲要(2024-2035年)》全文解读PPT课件.ppt
- YBT 2206.2-1998耐火浇注料抗热震性试验方法(水急冷法).pdf
文档评论(0)