- 11
- 0
- 约1.76千字
- 约 13页
- 2015-10-16 发布于江苏
- 举报
基于语料库的机器翻译系统.ppt
机器翻译原理——基于语料库的机器翻译系统 演讲:张锡阳 21号 语料库(Corpora)的定义 按照一定的原则组织在一起的真实的自然语言数据(包括书面语和口语)的集合,主要用于研究自然语言的规律,特别是统计语言学模型的训练以及相关系统的评价和评测。 一个由大量在真实环境中使用的语言信息所集成的专供研究使用的资料库。 一个为专门目的,按明确标准收集整理起来的电子文库。 语料库的分类 原始语料库(raw corpora) 附码语料库(annoted corpora) 平行语料库(parallel corpora) 学习者语料库(learner corpora) 网格式语料库(lattice corpora) 1.基于统计的机器翻译 基于统计模型的方法,也称为统计机器翻译(Statistical Machine Translation,SMT),其基本思想是:我们可以认为源语言句子到目标语言句子的翻译是一个概率问题,任何一个目标语言句子都有可能是任何一个源语言句子的译文,只是概率不同,机器翻译的任务就是找到概率最大的句子。到目前为止,基于统计模型的方法经历了基于词的模型 ,基于短语的模型和基于句法的模型三个阶段 我们以基于短语的模型为例,简单地介绍一下这种方法。 首先,我们对双语语料库的每个句子的词语对齐,然后查找并记录所有句子中包含的互为翻译的双语短语(实际上是根据某些限制条件产生的双语词串),并在整个语料库上统计这些双语短语的翻译概率,当机器接受一个待翻译的语句,会先到源短语表中去搜索与之匹配的短语,接着,机器会以句子为单位,找出各种情况的短语组合,并参考多个因素计算每种短语组合的句子翻译概率,最后,机器会自动选出概率最大的短语组合作为原句的翻译译文,这里计算句子翻译概率的时候,除了考虑上面的短语翻译概率以外,还要加上句子的语言模型概率、句子长度特征等多种因素 统计机器翻译有以下优势: ①由于统计机器翻译是直接从语料库中获取翻译知识,不需要人工调试规则和词典,与传统的规则式方法相比,翻译系统开发的人工成本低、开发周期短; ②由于翻译知识是直接来源于大规模的真实的双语语料库,所以译文中会经常出现很地道的翻译表达形式; ③由于是带参数的机器学习,翻译与语言本身无关,所以翻译模型可以迅速迁移到新的语种和新的领域 2.基于实例的机器翻译 基于实例的方法EBMT(Example-based Machine Translation) 是指从已经收集的双语实例库中寻找与待翻译的源语言句子最相似的翻译实例(通常是句子),再对实例的译文进行调整从而实现翻译的一种机器翻译方法 。 该方法最早是由日本的长尾真(Makoto Nagao) 于1981年提出 并于1984年发表的。 由于待翻译的源语言并不一定能找到完全相同的实例,为了找到语义最相似的实例,EBMT要借助语义词典,在确定了相似的句子之后,紧接着的译文调整必须借助于双语词典。EBMT用于全自动翻译。 很显然,对那些产品升级换代后的说明书和相关文档的翻译,只要新的文档与先前版本在内容上有相当程度的一致,EBMT的翻译效果就是非常理想的。后来人们在最初EBMT的基础上进行了很多扩展。最典型的就是通过实例的泛化,形成实例模板(Pattern),所谓泛化也就是把实例中的一些具体词泛化成一些类别 这里给出经过泛化的英汉翻译实例模板的示例: 原 文 :PERSON was in CITY on DATE 译文:PERSON DATE在CITY 实例的泛化大大提高了实例的匹配率,可以减少实际翻译中所需要的实例库的规模理论上,实例可以逐步抽象成规则,基于规则的方法本质上可以看成是翻译实例高度抽象的结果。但是,由于自然语言的歧义性,泛化并不是一件轻而易举的事情。在很多情况下,待翻译的源语言还是很难找到可以覆盖的实例,这是基于实例方法的局限性,因而在很多情况下,基于实例的方法只是作为翻译系统中其他主流方法的一个补充。 本文观看结束!!! * * 我 是 一个 学生 I am a student 词语对齐实例 源短语表 短语组合表 谢 谢 欣 赏! *
原创力文档

文档评论(0)