企业级机器学习平台产品解析.ppt

  1. 1、本文档共37页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1989 1992 1997 2016 2014 2011 Bill Othello Deep Blue AlphaGo 2007 SPHINX IBM Watson Apple Siri 1994 Nuance Chinook Checkers 1988 Facebook DeepFace Microsoft Tay Loebner Prize Claudico Texas Hold’em 2015 Google Brain 2012 2000 2013 DQN Xbox Kinect Google Now Microsoft Cortana Palantir Metropolis Wealthfront Betterment Google AdWords Kensho Google Auto- Email MS Office Grammar 2012 CMU Boss Boston Dynamics Google Car Pepper Amazon Kiva 人工智能发展的主要里程碑 AI = 机器学习 + 大数据 存储和计算能力的发展: Intel / Nvidia / SSD / Infiniband 数据规模的变化: O2O / 物联网 / 互联网+ 机器学习领域的发展: 框架、人才、数据科学家 大纲 1. 机器学习产品 2. 算法与算法框架 3. 可扩展平台架构 4. 面向部署集成 5. 案例与选型 企业级机器学习产品架构解析 机器学习产品要解决什么问题? 业务专家:利用大数据和机器学习获得业务提升 关心: 模型效果、与业务结合、可解释 系统管理人员:维护大量数据流 线上模型服务 关心: 资源使用、一致性、可管理性 数据科学家:处理数据 模型调研 关心: 算法、灵活性、可扩展性、性能 模型效果 VS 调研成本 • 大量数据导入导出预处理 • 特征工程 调参 领域知识 VS 技能要求 • 问题定义和优化目标需要业务经验 • 需要懂Python / Spark / Tensorflow 投产要求 VS 运维难度 • 线上特征 • 实时预估服务 机器学习平台的困难? VS VS VS 提升算法效果 聪明 VS 笨 天真无邪 VS 博览群书 一代宗师 VS 走火入魔 确保模型效果 – 充分使用尽可能多的数据 经验风险: 模型对于训练数据分类结果的误差 置信风险: 模型对于未知数据分类结果的误差 样本不足的情况下,VC维越高,越容易过拟合 样本充足的情况下,VC维越高,模型效果越好 - 如何获得足够的样本数据:使用更多的表和字段,3维特征 - 如何获得足够的计算能力:分布式机器学习 VC维 = 机器学习的智商 大规模机器学习框架GDBT C++ 14 / 兼具运行效率和开发效率 机器学习过程抽象,隐藏分布式细节 数据流与学习过程的紧密结合 面向实际客户问题的算法包 Split RR Split RR Split RR map map map (Sort) reduce OutputFormat file file RecordReaders Input (k,v) pairs Intermediate (k,v) pairs Partitioner Write back to local HDFS store MR/Spark ML 计算模型 Node 1 Files loaded from local HDFS stores Input Format Split RR Split RR Split RR map map map Partitioner (Sort) reduce OutputFormat file file RecordReaders Input (k,v) pairs Intermediate (k,v) pairs Write back to local HDFS store Node 2 Files loaded from local HDFS stores Input Format “Shuffling” process Intermediate (k,v) pairs exchanged by all nodes Dataflow Map Shuffle Reduce Worker Data Shared Worker Data Shared Worker Data Shared Partion 2 w w’=w-η w w’ w w’=w-η w w’ w w’=w-η△w w’ w w GDBT 计算模型 Parameter Server Partion 1

您可能关注的文档

文档评论(0)

文档分享 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档