面向中文学术专著机器辅助翻译与研究.docVIP

面向中文学术专著机器辅助翻译与研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
面向中文学术专著的机器辅助翻译研究 第一章 引言 1.1 课题的提出 日本英文版的科技论著已占相当大的比重。可以说日本的科学技术发展较快,与出版界注意信息的国际性和利用英文出版物把日本的科学界直接推向了国际大舞台不无关系。我国有着一批世界级的优秀科学家,在许多科学领域在国际上有一定的地位,甚至是领先地位。我们多出一些优质的英文版专著,可以将中国的科学技术事业推向世界。同时英文版专著的增加乃至普及则可能使我国的科技人员进一步提高英语水平,全面进入世界科技信息前沿,充分吸收借鉴国际上先进的科技成果,从而促进我国的科学技术进步。同时又形成良性循环,进一步促进我国科技专著的英语化和走向国际市场,全面促进提高全民族的文化素质,使我们真正在科学上树立起我国应该有的国际威信。 从一个较小的视角,探索机器辅助翻译的发展方向及相关研究工作的任务。 本研究同时也是一个实例:在自然语言处理领域,把现实的需求和现有的技术有效的结合起来。 专著的情况(期刊网—专著),专著翻译的情况 专著版本更新 面向人的翻译过程是怎样的(相关研究) 机器辅助的翻译过程又是怎样的(为什么有这个必要?) 哪些东西是可以利用的?现有的技术;翻译策略 限制领域 + 人机协作 针对一个小范围的用户,但开发方法可以在较短时间内适应到一个新的应用范围。 专著,是指著作者针对某一问题进行深入研究具有较高学术水平和一定创造性的著作。语法结构(concordance) 3.1.4 相似度计算的改进 本文工作对相似度计算的改进:能做什么、不能做什么 注意!!!泛化会不会对翻译造成负面影响??? 两种用法:1)online;2)pre-translation 自然语言处理技术中语言资源和语言知识有着至关重要的作用。(规则和统计的协作) 自然语言处理技术就基础理论、技术算法来讲可以是通用的、普遍的。但将其放入具体应用中,就应该具体问题、具体分析。这中间有一个适应(adaptation)的过程,即根据具体应用的要求来改进或利用现有的基础理论、技术算法。 附:规范专著的写作,便利计算机处理 计算方法:基于字和基于词的加权—可以满足需求 方法简单,效率高,可扩充性强(主要指语言知识的扩充) 不考虑词序:因为是辅助翻译,TM是给出参考,而并非自动翻译结果。同时,学术专著中词汇歧义较少,因词序不同引起的语义变化情况少。 不考虑语义:专著中术语较多,根据术语建立的语义资源not available。但目前考虑到的语义知识足以对翻译起到很好的辅助效果(如术语及其并列结构,括号、引号等)。 与原来的按字节算法的对比。(数据) 泛化的目的:帮助翻译记忆的相似度计算模块更有效地利用记忆库中句子级对齐单位(句对)。 自动泛化(综述):brown,张建 用知识库支持泛化(根据token)( 对语言知识的利用,对专著特点的利用 通常意义上的EBMT泛化是为了减少实例的数量(或者说控制/减小实例库的规模);我们的研究是为了更好地利用已有的实例。两者的目的实质上是相同的。 泛化的实质:模糊匹配(or partial exact matching) partial match: lexical equivalence ( class equivalence (equivalent class) 泛化的定义: Brown: /* 张建:泛化是指通过对实际例句中的部分词语或片段进行一定的概括、归纳,使结果能够适用于更多的情况,是提高EBMT的性能的有效方法。 张建的做法:通过对句子一级对齐的双语语料库学习来抽取翻译模板;对获得的翻译模板进行训练;然后利用所获得的翻译模板进行翻译。(借鉴前人的三个系统) 张建:以基于范例的推理(Case-Based Reasoning)的方法作比;***从翻译学的角度??? 根据前面的比较和分析,我们可以得知EBMT具有如下几个优点:产生的译文精确,翻译速度快,不需要人工收集和编辑翻译知识;但是也存在诸如匹配率比较低,需要大规模的例句库的支持等缺点。事实上,传统的EBMT系统的匹配率和其翻译质量是一对矛盾,当匹配率的限制严格的时候,一旦匹配成功则得到的译文质量非常高;反之,如果匹配率限制的不是很严格,则匹配成功时可能得到的译文质量一般。 泛化的EBMT的基本思想是通过对自然语句中的词语或者片段进行抽象和概括来降低输入维数,从而提高语句的匹配率。一方面,该方法减少了对语料库规模的依赖;另一方面,由于被抽象和概括的词语或者是片段具有普遍性,一般该部分的变化不会影响翻译的结构和框架,这样可以保证翻译译文的质量同泛化之前相当。 我们采用翻译模板的方法来自于这样一个启发:当我们学习语言的时候首先学习一些简单的语句,然后通过句式的变换和词语的替换,词汇量的增加来逐步的掌握语言的。类比学习是人类学习中的一个很

文档评论(0)

wpxuang12 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档