- 1、本文档共36页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
企业级机器学习平台产品解析 AI = 机器学习 + 大数据 存储和计算能力的发展: Intel / Nvidia / SSD / Infiniband 数据规模的变化: O2O / 物联网 / 互联网+ 机器学习领域的发展: 框架、人才、数据科学家 大纲 1. 机器学习产品 2. 算法与算法框架 3. 可扩展平台架构 4. 面向部署集成 5. 案例与选型 企业级机器学习产品架构解析 机器学习产品要解决什么问题? 业务专家:利用大数据和机器学习获得业务提升 关心: 模型效果、与业务结合、可解释 系统管理人员:维护大量数据流 线上模型服务 关心: 资源使用、一致性、可管理性 数据科学家:处理数据 模型调研 关心: 算法、灵活性、可扩展性、性能 模型效果 VS 调研成本 ? 大量数据导入导出预处理 ? 特征工程 调参 领域知识 VS 技能要求 ? 问题定义和优化目标需要业务经验 ? 需要懂Python / Spark / Tensorflow 投产要求 VS 运维难度 ? 线上特征 ? 实时预估服务 机器学习平台的困难? VS VS VS 提升算法效果 聪明 VS 笨 天真无邪 VS 博览群书 一代宗师 VS 走火入魔 确保模型效果 – 充分使用尽可能多的数据 经验风险: 模型对于训练数据分类结果的误差 置信风险: 模型对于未知数据分类结果的误差 样本不足的情况下,VC维越高,越容易过拟合 样本充足的情况下,VC维越高,模型效果越好 - 如何获得足够的样本数据:使用更多的表和字段,3维特征 - 如何获得足够的计算能力:分布式机器学习 VC维 = 机器学习的智商 大规模机器学习框架GDBT C++ 14 / 兼具运行效率和开发效率 机器学习过程抽象,隐藏分布式细节 数据流与学习过程的紧密结合 面向实际客户问题的算法包 Split RR Split RR Split RR map map map (Sort) reduce OutputFormat file file RecordReaders Input (k,v) pairs Intermediate (k,v) pairs Partitioner Write back to local HDFS store MR/Spark ML 计算模型 Node 1 Files loaded from local HDFS stores Input Format Split RR Split RR Split RR map map map Partitioner (Sort) reduce OutputFormat file file RecordReaders Input (k,v) pairs Intermediate (k,v) pairs Write back to local HDFS store Node 2 Files loaded from local HDFS stores Input Format “Shuffling” process Intermediate (k,v) pairs exchanged by all nodes Dataflow Map Shuffle Reduce Worker Data Shared Worker Data Shared Worker Data Shared Partion 2 w w’=w-η w w’ w w’=w-η w w’ w w’=w-η△w w’ w w GDBT 计算模型 Parameter Server Partion 1 w in HQueue ww w w Partitioned by feature Partion 3 Minibatch Push/Pull w Load Data From Datasource GDBT Not Only Parameter Server 存储 | 计算 | 通讯 | 灾备 | 开放接口 | 场景优化 HDFS Local FS S3… zeromq CUDA MKL… Yarn MPI Mesos GDBT DataSource/HeterCache GDBT RpcService GDBT HeterComputation GDBT Channel GDBT Processes GDBT ExecEngine GDBT Group Commun
您可能关注的文档
- 以珍惜为话题的立意指导课件.ppt
- 以财务报告为目的的评估课件.ppt
- 以老王台阶为例学习细节描写课件.ppt
- 仪器分析期末考试复习选择题高等教育出版社配用贵州师范大学课件.ppt
- 仁爱英语七年级UTSC课件.ppt
- 仪器的连接与洗涤课件.ppt
- 仪器分析GCMS课件.ppt
- 仪态礼仪之表情礼仪课件.ppt
- 仪器设备使用及意外情况应急预案培训课件.ppt
- 价值与人生价值的含义课件.ppt
- 2025年时事政治试题库及参考答案详解【研优卷】.docx
- 北师大版一年级下册数学第四单元 有趣的图形 测试卷附参考答案【培优b卷】.docx
- 北师大版一年级下册数学第四单元 有趣的图形 测试卷附完整答案(易错题).docx
- 北师大版一年级下册数学第四单元 有趣的图形 测试卷附完整答案【全国通用】.docx
- 北师大版一年级下册数学第四单元 有趣的图形 测试卷精品(b卷).docx
- 北师大版一年级下册数学第四单元 有趣的图形 测试卷带答案(预热题).docx
- 北师大版一年级下册数学第四单元 有趣的图形 测试卷带答案(精练).docx
- 北师大版一年级下册数学第四单元 有趣的图形 测试卷及完整答案【各地真题】.docx
- 北师大版一年级下册数学第四单元 有趣的图形 测试卷必考题.docx
- 北师大版一年级下册数学第四单元 有趣的图形 测试卷及完整答案(历年真题).docx
文档评论(0)