ISCAS基于短语的统计机器翻译系统.ppt

ISCAS基于短语的统计机器翻译系统.ppt

ISCAS机器翻译和系统融合评测系统 张大鲲 孙乐 中国科学院软件研究所 dakun04@iscas.ac.cn 大纲 汉英新闻领域翻译评测 概述 系统流程 预处理和后处理 测试结果 系统融合评测 概述 训练语料受限的汉英机器翻译 基于短语的统计机器翻译系统 4元语言模型 3元大小写敏感语言模型进行大小写还原 利用规则对数字进行处理 系统流程 特征 短语翻译概率 词汇化概率 反向短语翻译概率 反向词汇化概率 短语惩罚概率(2.718) 词语惩罚(目标语言句子长度) 目标语言模型,4元 预处理和后处理 中文语料中的英文和英文语料全部小写 中文全角字符转换为半角 ABC123→ ABC123 Stanford Chinese Word Segmenter分词 数字单独处理 训练语料 开发集调整参数 测试结果 系统融合 主要方法 (Rosti et al. 2007) 句子级融合 重评分,输出最好的句子 短语级融合 构造新的短语表,计算概率,重新解码 词级融合 词对齐,形成词图,最优路径 系统融合 重评分 统计在候选翻译中出现的所有n-gram个数 计算每个句子中命中的个数 测试 使用提供的10个单位提交的17个系统的翻译结果(没有使用系统U14的结果) 总结 汉英新闻领域翻译评测 训练语料受限 基于短语的翻译系统 4元语言模型 利用规则对数字进行处理 系统融合评测 句子级的融合方法

文档评论(0)

1亿VIP精品文档

相关文档