统计机器翻译简明教程指南.pptVIP

  • 19
  • 0
  • 约1.07万字
  • 约 37页
  • 2017-06-18 发布于湖北
  • 举报
统计机器翻译简明教程 兼谈相关工具的使用 何中军 2007年11月 提纲 系统结构 前处理 词语对齐 短语抽取 解码 后处理 参数训练 评测 训练语料库 训练语料库为双语语料库 格式不固定,可以是文本格式,xml格式等等 要求必须句子对齐 语料预处理 目的:将各种格式不同的生语料进行加工,形成格式统一的语料库,以便进行词语对齐 步骤: 汉语分词 工具:ICTCLAS 汉语全半角转换 功能: 将A3区的全角字符转换为半角字符 程序:A2B 命令行: A2B input output 英语分词 工具:Brill 英语首字母小写还原 功能:将英语语料库中的句首字母进行大小写转换。如果首单词在语料库中出现的次数小写多于大写,则将首字母变为小写。 程序:Truecase 命令行:Truecase input output 处理后训练语料库 词语对齐 GIZA++词语对齐 词语对齐后处理 添加句首句尾标记 词语对齐 – GIZA++训练 输入:汉语文本,英语文本,一行一句,句子对齐 plain2snt:统计单词数,格式转换 命令行 ./plain2snt.out chinese english mkcls:单词聚类 命令行: ./mkcls -n1 -pchinese -Vchinese.vcb.classes opt -n:表示训练迭代的次数,一般迭代1次 -p:要聚类的文本,一行

文档评论(0)

1亿VIP精品文档

相关文档