统计机器翻译简明教程指南.pptVIP

下载本文档

19
0
约1.07万字
约 37页
2017-06-18 发布于湖北
举报

统计机器翻译简明教程指南.ppt

统计机器翻译简明教程兼谈相关工具的使用何中军 2007年11月提纲系统结构前处理词语对齐短语抽取解码后处理参数训练评测训练语料库训练语料库为双语语料库格式不固定，可以是文本格式，xml格式等等要求必须句子对齐语料预处理目的：将各种格式不同的生语料进行加工，形成格式统一的语料库，以便进行词语对齐步骤：汉语分词工具：ICTCLAS 汉语全半角转换功能：将A3区的全角字符转换为半角字符程序：A2B 命令行： A2B input output 英语分词工具：Brill 英语首字母小写还原功能：将英语语料库中的句首字母进行大小写转换。如果首单词在语料库中出现的次数小写多于大写，则将首字母变为小写。程序：Truecase 命令行：Truecase input output 处理后训练语料库词语对齐 GIZA++词语对齐词语对齐后处理添加句首句尾标记词语对齐 – GIZA++训练输入：汉语文本，英语文本，一行一句，句子对齐 plain2snt：统计单词数，格式转换命令行 ./plain2snt.out chinese english mkcls：单词聚类命令行： ./mkcls -n1 -pchinese -Vchinese.vcb.classes opt -n：表示训练迭代的次数，一般迭代1次 -p：要聚类的文本，一行

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

统计机器翻译简明教程指南.pptVIP