PGIZA设计概述.pptVIP

  • 3
  • 0
  • 约1.58千字
  • 约 14页
  • 2018-04-30 发布于河南
  • 举报
PGIZA设计概述

PGIZA设计概述 大纲 简介 运行环境及所需程序包 系统设计 性能 总结 简介 GIZA++:训练统计翻译模型的程序包 EM算法 HMM模型,IBM模型 使用时的问题 硬件 时间 简介 PGIZA:基于GIZA++的平行统计翻译模型训练程序包 IBM模型1、HMM模型、IBM模型3 分而治之的策略 在可以接受的时间内,利用多台普通的PC机实现统计翻译模型的训练 运行环境及所需程序包 硬件 P4 2G (13台) 1G RAM 1000Mbps Network 软件 Debian SSH Simba Perl 修改的GIZA++ 系统设计 目标:在普通机群环境下实现模型的多机并行训练 缩短训练时间 提高训练语料数量 保证模型质量 基本策略:分而治之 对部分语料分别训练(分机群) 模型合并(主机) 系统设计 基本流程 主机向分机群分配语料 分机群对部分语料训练部分模型 分机群将部分模型上传至主机 主机对部分模型进行合并 主机将合并后的模型分发至分机群 分机群开始下一次迭代 系统设计 系统设计 模型合并 合并频数统计表 二进制方式存储模型 精度高 空间小 按条目排序 多路归并 内存使用量很小,由归并路数决定。 计算频率 频率裁减和平滑 性能 训练200,000 句对下Model3,原始GIZA++ 和PGIZA的分支度比较 性能 训练2,500,000 句对下Model3

文档评论(0)

1亿VIP精品文档

相关文档