基于模板的统计翻译模型研究及汉英机器翻译系统实现 刘群 liuqun@ 目录 引言 综述 研究思路 实验方案 总结 引言 本文的主要工作 提出一个基于模板的统计翻译模型 给出一个汉英机器翻译系统的实现方案 本文的主要创新 给出了转换模板的定义及模板抽取算法 提出模板角色概念并给出三种统计翻译模型 给出该模型的参数估计算法 目录 引言 综述 机器翻译的范式 统计机器翻译综述(三种主要的方法) 统计机器翻译小结 研究思路 实验方案 总结 机器翻译的范式 统计机器翻译方法的界定 区别于规则方法: 利用语料库作为知识来源 无需人工编写规则 区别于实例方法或模板方法: 建立完整的统计模型 必须为整个翻译过程,而不是其中某个局部,建立统计模型 统计机器翻译的分类 基于平行概率语法的统计机器翻译模型 基于信源信道思想的统计机器翻译模型 IBM的Peter Brown等人首先提出 目前影响最大 几乎成为统计机器翻译的同义词 基于最大熵的统计机器翻译模型 源于基于特征的自然语言理解 Och提出,获ACL2002最佳论文 统计机器翻译的优缺点 优点 无需人工编写规则,利用语料库直接训练得到机器翻译系统;(但可以使用语言资源) 系统开发周期短; 鲁棒性好; 译文质量好; 缺点 时空开销大; 数据稀疏问题严重; 对语料库依赖性强; 算法研究不成熟。 基于平行概率语法的统计机器翻译模型 基本思想 两种语言建立一套平行的语法规则, 规则一一对应 两套规则服从同样的概率分布 句法分析的过程决定了生成的过程 主要模型 Alshawi的基于Head Transducer的MT模型 吴德恺的Inverse Transduction Grammar(ITG) Takeda的Pattern-based CFG for MT Head Transducer MT (1) Head Transducer(中心词转录机)是一种Definite State Automata(有限状态自动机) 与一般的有限状态识别器的区别: 每一条边上不仅有输入,而且有输出; 不是从左至右输入,而是从中心词往两边输入 Head Transducer MT(2) Head Transducer MT(3) 所有的语言知识(词典、规则)都表现为Head Transducer; Head Transducer可以嵌套:一个Head Transducer的边是另一个的识别结果; 纯统计的训练方法;对齐的结果是依存树:不使用词性和短语类标记; Chart句法分析器。 Inversion Transduction Grammar(1) 比赛星期三开始。 The game will start on Wednesday。 Inversion Transduction Grammar(2) 规则形式: A → [ B C ] A → B C A → x/y 产生源语言和目标语言串分别为: BC BC:词序相同 BC CB:词序交换 x y:词典 Pattern-based CFG for MT (1) 每个翻译模板由一个源语言上下文无关规则和一个目标语言上下文无关规则(这两个规则称为翻译模板的骨架),以及对这两个规则的中心词约束和链接约束构成; 举例: S:2 → NP:1 岁:MP:2 了 ──────────── S:be → NP:1 be year:NP:2 old Pattern-based CFG for MT (2) 中心词约束:对于上下文无关语法规则中右部(子结点)的每个非终结符,可以指定其中心词;对于规则左部(父结点)的非终结符,可以直接指定其中心词,也可以通过使用相同的序号规定其中心词等于其右部的某个非终结符的中心词; 链接约束:源语言骨架和目标语言骨架的非终结符子结点通过使用相同的序号建立对应关系,具有对应关系的非终结符互为翻译。 信源-信道模型 T 统计机器翻译基本方程式 P.Brown称上式为统计机器翻译基本方程式 语言模型:P(S) 翻译模型:P(T|S) 语言模型反映“ S 像一个句子”的程度:流利度 翻译模型反映“T像S”的程度:忠实度 联合使用两个模型效果好于单独使用翻译模型,因为后者容易导致一些不好的译文。 语言模型与翻译模型 考虑汉语动词“打”的翻译:有几十种对应的英语词译文: 打人,打饭,打鱼,打毛衣,打猎,打草稿,…… 如果直接采用翻译模型,就需要根据上下文建立复杂的上下文条件概率模型 如果采用信源-信道思想,只要建立简单的翻译模型,可以同样达到目标词语选择的效果: 翻译模型:不考虑上下文,只考虑单词之间的翻译概率 语言模型:根据单词之间的同现选择最好的译文词 统计机器翻译的三个问题 三个问题: 语言模型P(S)的参数估计 翻译模型P(T
您可能关注的文档
- 埃森哲如何能够帮助企业.PDF
- 坚持四位一体有效遏制电信网络新型违法犯罪-社会治理.PDF
- 城地下综合管廊与非开挖技术国际学术报告会-陕西土木建筑学会.DOC
- 城化进程中的城郊社区安全问题与解决策略-温州大学学报.PDF
- 城土地利用变化对生态系统服务的影响-NSFC.PDF
- 城土地场发育与土地集约利用分析及对策-资源科学.PDF
- 城水系建设的环境重塑-中国水利水电科学研究院学报.PDF
- 城森林营建技术导则-北京质量技术监督局.PDF
- 城热岛空间格局及其变化的图形信息特征分析-武汉大学学报·信息.PDF
- 城火灾应急物资库优化布局研究—以青岛为例-中国科技论文在线.PDF
- 25-26学年政治(部编版)选择性必修第二册课件:第1单元 周清1 民法中的人身权及财产权.pptx
- 25-26学年政治(部编版)选择性必修第二册课件:1.4.1 权利保障 于法有据.pptx
- 2025北京丰台区高二(上)期中地理(A卷)含答案.docx
- 2025北京三帆中学初三(上)开学考英语试题含答案.docx
- 2025北京一零一中初三9月月考语文试题含答案.docx
- 2025北京海淀区初三(上)期中道法试题含答案.docx
- 2025北京丰台区高一(上)期中政治(A卷)含答案.docx
- 25-26学年政治统编版必修4课件:3.3 唯物辩证法的实质与核心.pptx
- 25-26学年政治统编版必修4课件:7.2 正确认识中华传统文化.pptx
- 湖北省部分高中2026届高三上学期二模联考 历史试卷.docx
最近下载
- 2025年建筑材料放射性质量标准评估可行性研究报告.docx VIP
- 2025年网络文学出海:跨文化传播与内容创新研究报告.docx
- 2014马年春联(七字繁体).doc VIP
- 科远KD310施工升降机专机使用说明书.pdf
- NB∕T 20580.1-2021 核电厂建设工程概算定额 第1部分:核岛土建工程(3-2).pdf
- 高一生物必修一知识点总结.doc VIP
- 养老护理员国家职业技能鉴定申报条件及程序.docx VIP
- F正谱江山声乐正谱钢琴伴奏五线谱子乐谱曲谱艺术歌曲歌谱音乐学院版.pdf VIP
- 2025年工程制图B期末考试题及答案.doc VIP
- 突发低血压的应急预案和处理措施.pptx VIP
原创力文档

文档评论(0)