针对专利文献的韩汉机器翻译中模板的实现方法.docVIP

下载本文档

2
0
约3.81千字
约 7页
2016-09-11 发布于北京
举报
版权申诉

针对专利文献的韩汉机器翻译中模板的实现方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

针对专利文献的韩汉机器翻译中模板的实现方法.doc

针对专利文献的韩汉机器翻译中模板的实现方法　　摘要：本文提出一种，针对专利文献的机器翻译系统中，通过人工撰写模板，提高翻译准确率的同时节省时间和人力的方法。此方法不仅仅限于韩汉翻译系统，也可广泛应用于其他语言之间的翻译系统。　　关键词：模板；专利文献韩汉机器翻译　　中图分类号：TP391.2 　　随着计算机科学技术、特别是自然语言处理技术的高速发展，机器翻译技术可以利用其发展而不断进步，已成为未来翻译领域的前沿课题以及大势所趋。自2007年韩国专利文献被纳入PCT最低文献量之后，世界范围内对韩国专利文献的关注度也越显突出。本文介绍一种能够提高专利文献韩汉机器翻译引擎的翻译质量的方法，即基于模板的专利文献韩汉机器翻译研究方法。　　1 模板的翻译引擎　　机器翻译领域中，统计机器翻译的基本思想即是通过对大量的平行语料进行统计分析，构建统计翻译模型，进而使用此模型进行翻译。但统计翻译引擎需要大量的语料进行训练，语料的搜集量以及准确性直接影响其翻译质量，因此怎样有效的搜集大量的对齐语料，并能保证语料的准确性是构建统计机器翻译引擎的一个非常关键的因素，特别是研究人力有限的情况下，这将是一个非常庞大而长期的工程。　　基于模板的翻译引擎可在有限研究人力的情况下，弥补统计翻译引擎带来的弊端。运用专利文献的语言特征，编写相对应的模板，针对性比较强，模板覆盖范围比较广，有效解决机器翻译中译文语序混乱、不符合专利叙写规范等问题。　　2 模板的设计　　2.1 专利文献的特点　　仔细观察专利文献的语言特征，不难看出，专利文献带有比较特殊的语法结构。例如：　　（1）本发明提供一种由充气式圆环形圈构成的婴幼儿游泳圈；　　（2）本发明涉及一种股骨颈保护装置；　　（3）本发明涉及冶金渣处理装置；　　这些语句都含有“本发明提供/涉及……”的句式；　　（4）根据权利要求1所述的股骨颈保护装置，其特征在于：所述的凸缘（12）在股骨（30）与股骨颈（20）相接的表面上略呈弧曲状；　　（5）根据权利要求4-6中任一项所述的方法，其特征在于，在步骤B中，所述逐点计算所有计算块的运动矢量的步骤。　　上述（4），（5）的例句中都包含“根据权利要求xx，其特征在于……”的句式。基于模板的机器翻译研究即是利用上述专利文献的语言特征，人工撰写对应的语法模板，提高翻译文的可读性。　　2.2 模板设计思路　　人工撰写模板的意义其实就在于，用计算机语言编写人工语言的语法规则，使计算机熟悉人工语言语法。因此，模板的设计需要考虑每一句的语序安排，以及如何针对性的撰写模板的问题。　　图1 　　如上述举例，韩文和中文的语序存在差异，撰写模板时应考虑此类现象。　　3 模板的撰写方法　　模板编写是可运用正则文法的表达式，正则文法描述的是搜索文本正文时需要匹配的一个或者多个字符串，因此可用作于将字符模式与要搜索的字符串相匹配的模板。　　表1 　　[] 标记括号表达式的开始和结尾。 [ABC]与“ABC”或包括“ABC”的字符串匹配。　　{} 标记限定符表达式的开始和结尾。 a{2，3}与“aa”和“aaa”匹配。　　+ 一次或多次匹配前面的字符或子表达式。 zo+与“zo”和“zoo”匹配，但与“z”不匹配。　　假如有“abc/ef/g/hi”这么一段自然语言语句，对应的目标语言为“ABC/HI/EF/G”的语序，那么运用上述符号，可编写以下模板的表达式：　　（0）{abc}+（1）{ef}+（2）{g}+（3）{hi}==（0）{ABC}+（1）{HI}+（2）{EF}+（3）{G} 　　图2 　　3.1 源语言表达方式　　由于源语言是韩文，因此规定源语言的参数都以“K”为开头，这样的设置，方便了今后其他语言之间的机器翻译系统的开发。　　TEM[max]：无限变量，可以是一个字符，也可以是一个词组，或者一段语句，语句可以带任何标点符号。　　KRN：韩文词汇，也可以是词组，复合词等。　　KRN_M：韩文短语，包括助词和谓语的组合，或者主语和助词的组合。　　KYM：韩文符号，一般指逗号或者分号。　　KNU：韩文序列号，专利文中常见的序列号，如第一，第二，或者权利要求1，权利要求2，图1，图2等。　　3.2 目标语言表达方式　　同样的，目标语言为中文，因此目标语言参数部分都以“C”为开头。　　TEM[max]：无限变量，与上述韩文中的符号一样，没有长度限制。　　CRN：中文词汇，也可以是词组，复合词等。　　CRN_M：中文短语，包括助词和谓语的组合，或者主语和助词的组合。　　CYM：中文符号，一般指逗号或者分号。　　CNU：中文序列号