- 5
- 0
- 约1.95千字
- 约 14页
- 2018-06-28 发布于福建
- 举报
PGIZA的设计概述
行业报告 多媒体课件 豆丁网友友情分享,欢迎收藏 PGIZA设计概述 大纲 简介 运行环境及所需程序包 系统设计 性能 总结 简介 GIZA++:训练统计翻译模型的程序包 EM算法 HMM模型,IBM模型 使用时的问题 硬件 时间 简介 PGIZA:基于GIZA++的平行统计翻译模型训练程序包 IBM模型1、HMM模型、IBM模型3 分而治之的策略 在可以接受的时间内,利用多台普通的PC机实现统计翻译模型的训练 运行环境及所需程序包 硬件 P4 2G (13台) 1G RAM 1000Mbps Network 软件 Debian SSH Simba Perl 修改的GIZA++ 系统设计 目标:在普通机群环境下实现模型的多机并行训练 缩短训练时间 提高训练语料数量 保证模型质量 基本策略:分而治之 对部分语料分别训练(分机群) 模型合并(主机) 系统设计 基本流程 主机向分机群分配语料 分机群对部分语料训练部分模型 分机群将部分模型上传至主机 主机对部分模型进行合并 主机将合并后的模型分发至分机群 分机群开始下一次迭代 系统设计 系统设计 模型合并 合并频数统计表 二进制方式存储模型 精度高 空间小 按条目排序 多路归并 内存使用量很小,由归并路数决定。 计算频率 频率裁减和平滑 性能 训练200,000 句对下Model3,原始GIZA++ 和PGIZA的分支度比较 性能 训练2,500,000 句对下Model3,并行训练所需时间(每次迭代的全部时间)和模型分支度 性能 总结 PGIZA在普通机群上实现了GIZA++翻译模型训练的分布式计算 基本上克服了大数据训练的瓶颈 降低了训练的硬件要求 提高了训练速度 保证了模型性能 * National Lab. on Machine Perception, Peking University * 行业报告 多媒体课件 豆丁网友友情分享,欢迎收藏 报告人:林小俊 北京大学视觉与听觉信息处理国家重点实验室 行业报告 多媒体课件 豆丁网友友情分享,欢迎收藏 行业报告 多媒体课件 豆丁网友友情分享,欢迎收藏 行业报告 多媒体课件 豆丁网友友情分享,欢迎收藏 行业报告 多媒体课件 豆丁网友友情分享,欢迎收藏 行业报告 多媒体课件 豆丁网友友情分享,欢迎收藏 行业报告 多媒体课件 豆丁网友友情分享,欢迎收藏 行业报告 多媒体课件 豆丁网友友情分享,欢迎收藏 行业报告 多媒体课件 豆丁网友友情分享,欢迎收藏 行业报告 多媒体课件 豆丁网友友情分享,欢迎收藏 144.804 153.776 144.994 153.991 5 147.148 156.314 147.347 156.541 4 152.294 161.807 152.492 162.048 3 171.358 183.142 171.191 182.948 2 80.4491 88.3721 80.3202 88.2502 1 Giza++ PGiza Iterations Model3 Phase 行业报告 多媒体课件 豆丁网友友情分享,欢迎收藏 593 144.804 153.776 5 634 147.148 156.314 4 619 152.294 161.807 3 819 171.358 183.142 2 941 80.4491 88.3721 1 Time(sec) Perplexity Iterations Model3 Phase 行业报告 多媒体课件 豆丁网友友情分享,欢迎收藏 593 144.804 153.776 1125 68.8219 82.1094 2140 137.904 252.269 5 634 147.148 156.314 1368 71.1894 86.3676 2290 145.985 282.376 4 619 152.294 161.807 1467 76.0139 95.0944 2640 169.211 364.185 3 819 171.358 183.142 1855 88.9192 118.78 3780 359.707 986.22 2 941 80.4491 88.3721 2241 133.083 237.325 4020 262019 Inf. 1 Time(sec) Perplexity Time(sec) Perplexity Time(sec) Perplexity Iterations Model3 HMM Model1 Phase 行业报告 多媒体课件 豆丁网友友情分享,欢迎收藏 行业报告 多媒体课件 豆丁网友友情分享,欢迎收藏 谢谢!
您可能关注的文档
- nAX水感谢锐得杯PPT的设计大赛17号参赛作品.ppt
- NHHA3标总体实施性施工组织的设计文字说明.doc
- NET程序的设计实验.doc
- NAVIGARE春夏时装品牌展销会活动的的策划的方案.ppt
- NGW型行星齿轮减速器行星轮的的设计.doc
- nhu建设的项目环评.ppt
- nicholson微观经济理论ch21.ppt
- nfc应用介绍及的案例.ppt
- nh2高一11 的研究性学习.ppt
- NIKE广告的的策划书.doc
- 人食管胃结合部腺癌类器官培养用主要试剂材料与操作要点、鉴定.pdf
- 高效节能领域绿色低碳产业关键技术先进性评价指标、环境效益指标及测算方法、企业、项目认定评价报告、评价指标表.pdf
- 宣贯培训(2026年)《SJT 11901—2023超高清远程会诊系统技术要求》.pptx
- 宣贯培训(2026年)《SJT 11900.1—2023超高清视频图像质量 第1部分:主观评价》.pptx
- 新型储能系统建设运营领域绿色低碳产业关键技术先进性评价指标、环境效益指标及测算方法、企业、项目认定评价报告、评价指标表.pdf
- 新能源汽车产品制造领域绿色低碳产业关键技术先进性评价指标、环境效益指标及测算方法、企业、项目认定评价报告、评价指标表.pdf
- 绿色物流领域绿色低碳产业关键技术先进性评价指标、环境效益指标及测算方法、企业、项目认定评价报告、评价指标表.pdf
- 宣贯培训(2026年)《SJT 11906—2023电视接收设备 电声性能基本技术要求和测量方法》.pptx
- 宣贯培训(2026年)《SJT 11910—2023虚拟现实音频主观评价方法》.pptx
- 宣贯培训(2026年)《NYT 3683-2020半匍匐型花生栽培技术规程》.pptx
原创力文档

文档评论(0)