PGIZA的设计概述.pptVIP

  • 5
  • 0
  • 约1.95千字
  • 约 14页
  • 2018-06-28 发布于福建
  • 举报
PGIZA的设计概述

行业报告 多媒体课件 豆丁网友友情分享,欢迎收藏 PGIZA设计概述 大纲 简介 运行环境及所需程序包 系统设计 性能 总结 简介 GIZA++:训练统计翻译模型的程序包 EM算法 HMM模型,IBM模型 使用时的问题 硬件 时间 简介 PGIZA:基于GIZA++的平行统计翻译模型训练程序包 IBM模型1、HMM模型、IBM模型3 分而治之的策略 在可以接受的时间内,利用多台普通的PC机实现统计翻译模型的训练 运行环境及所需程序包 硬件 P4 2G (13台) 1G RAM 1000Mbps Network 软件 Debian SSH Simba Perl 修改的GIZA++ 系统设计 目标:在普通机群环境下实现模型的多机并行训练 缩短训练时间 提高训练语料数量 保证模型质量 基本策略:分而治之 对部分语料分别训练(分机群) 模型合并(主机) 系统设计 基本流程 主机向分机群分配语料 分机群对部分语料训练部分模型 分机群将部分模型上传至主机 主机对部分模型进行合并 主机将合并后的模型分发至分机群 分机群开始下一次迭代 系统设计 系统设计 模型合并 合并频数统计表 二进制方式存储模型 精度高 空间小 按条目排序 多路归并 内存使用量很小,由归并路数决定。 计算频率 频率裁减和平滑 性能 训练200,000 句对下Model3,原始GIZA++ 和PGIZA的分支度比较 性能 训练2,500,000 句对下Model3,并行训练所需时间(每次迭代的全部时间)和模型分支度 性能 总结 PGIZA在普通机群上实现了GIZA++翻译模型训练的分布式计算 基本上克服了大数据训练的瓶颈 降低了训练的硬件要求 提高了训练速度 保证了模型性能 * National Lab. on Machine Perception, Peking University * 行业报告 多媒体课件 豆丁网友友情分享,欢迎收藏 报告人:林小俊 北京大学视觉与听觉信息处理国家重点实验室 行业报告 多媒体课件 豆丁网友友情分享,欢迎收藏 行业报告 多媒体课件 豆丁网友友情分享,欢迎收藏 行业报告 多媒体课件 豆丁网友友情分享,欢迎收藏 行业报告 多媒体课件 豆丁网友友情分享,欢迎收藏 行业报告 多媒体课件 豆丁网友友情分享,欢迎收藏 行业报告 多媒体课件 豆丁网友友情分享,欢迎收藏 行业报告 多媒体课件 豆丁网友友情分享,欢迎收藏 行业报告 多媒体课件 豆丁网友友情分享,欢迎收藏 行业报告 多媒体课件 豆丁网友友情分享,欢迎收藏 144.804 153.776 144.994 153.991 5 147.148 156.314 147.347 156.541 4 152.294 161.807 152.492 162.048 3 171.358 183.142 171.191 182.948 2 80.4491 88.3721 80.3202 88.2502 1 Giza++ PGiza Iterations Model3 Phase 行业报告 多媒体课件 豆丁网友友情分享,欢迎收藏 593 144.804 153.776 5 634 147.148 156.314 4 619 152.294 161.807 3 819 171.358 183.142 2 941 80.4491 88.3721 1 Time(sec) Perplexity Iterations Model3 Phase 行业报告 多媒体课件 豆丁网友友情分享,欢迎收藏 593 144.804 153.776 1125 68.8219 82.1094 2140 137.904 252.269 5 634 147.148 156.314 1368 71.1894 86.3676 2290 145.985 282.376 4 619 152.294 161.807 1467 76.0139 95.0944 2640 169.211 364.185 3 819 171.358 183.142 1855 88.9192 118.78 3780 359.707 986.22 2 941 80.4491 88.3721 2241 133.083 237.325 4020 262019 Inf. 1 Time(sec) Perplexity Time(sec) Perplexity Time(sec) Perplexity Iterations Model3 HMM Model1 Phase 行业报告 多媒体课件 豆丁网友友情分享,欢迎收藏 行业报告 多媒体课件 豆丁网友友情分享,欢迎收藏 谢谢!

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档