- 1、本文档共37页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1989
1992
1997
2016
2014
2011
Bill
Othello
Deep Blue
AlphaGo
2007
SPHINX
IBM
Watson
Apple
Siri
1994
Nuance
Chinook
Checkers
1988
Facebook
DeepFace
Microsoft
Tay
Loebner
Prize
Claudico
Texas Hold’em
2015
Google
Brain
2012
2000
2013
DQN
Xbox
Kinect
Google
Now
Microsoft
Cortana
Palantir
Metropolis
Wealthfront
Betterment
Google
AdWords
Kensho
Google
Auto- Email
MS Office
Grammar
2012
CMU Boss
Boston
Dynamics
Google Car
Pepper
Amazon Kiva
人工智能发展的主要里程碑
AI = 机器学习 + 大数据
存储和计算能力的发展: Intel / Nvidia / SSD / Infiniband
数据规模的变化: O2O / 物联网 / 互联网+
机器学习领域的发展: 框架、人才、数据科学家
大纲
1. 机器学习产品
2. 算法与算法框架
3. 可扩展平台架构
4. 面向部署集成
5. 案例与选型
企业级机器学习产品架构解析
机器学习产品要解决什么问题?
业务专家:利用大数据和机器学习获得业务提升
关心: 模型效果、与业务结合、可解释
系统管理人员:维护大量数据流 线上模型服务
关心: 资源使用、一致性、可管理性
数据科学家:处理数据 模型调研
关心: 算法、灵活性、可扩展性、性能
模型效果 VS 调研成本
• 大量数据导入导出预处理
• 特征工程 调参
领域知识 VS 技能要求
• 问题定义和优化目标需要业务经验
• 需要懂Python / Spark / Tensorflow
投产要求 VS 运维难度
• 线上特征
• 实时预估服务
机器学习平台的困难?
VS
VS
VS
提升算法效果
聪明 VS 笨
天真无邪 VS 博览群书
一代宗师 VS 走火入魔
确保模型效果 – 充分使用尽可能多的数据
经验风险: 模型对于训练数据分类结果的误差
置信风险: 模型对于未知数据分类结果的误差
样本不足的情况下,VC维越高,越容易过拟合
样本充足的情况下,VC维越高,模型效果越好
- 如何获得足够的样本数据:使用更多的表和字段,3维特征
- 如何获得足够的计算能力:分布式机器学习
VC维 = 机器学习的智商
大规模机器学习框架GDBT
C++ 14 / 兼具运行效率和开发效率
机器学习过程抽象,隐藏分布式细节
数据流与学习过程的紧密结合
面向实际客户问题的算法包
Split
RR
Split
RR
Split
RR
map
map
map
(Sort)
reduce
OutputFormat
file
file
RecordReaders
Input (k,v) pairs
Intermediate (k,v) pairs
Partitioner
Write back to
local HDFS
store
MR/Spark ML 计算模型
Node 1
Files loaded from local HDFS stores
Input Format
Split
RR
Split
RR
Split
RR
map
map
map
Partitioner
(Sort)
reduce
OutputFormat
file
file
RecordReaders
Input (k,v) pairs
Intermediate (k,v) pairs
Write back to
local HDFS
store
Node 2
Files loaded from local HDFS stores
Input Format
“Shuffling” process
Intermediate
(k,v) pairs
exchanged by all
nodes
Dataflow
Map
Shuffle
Reduce
Worker
Data Shared
Worker
Data Shared
Worker
Data Shared
Partion 2
w
w’=w-η w
w’
w
w’=w-η w
w’
w
w’=w-η△w
w’
w
w
GDBT 计算模型
Parameter
Server
Partion 1
您可能关注的文档
- 大气课设_酸洗废气净化系统方案.doc
- 大学物理试题库_热力学.doc
- 导数的运算法则和复合函数的导数公式.ppt
- 等体积变形后求长宽的解决问题.ppt
- 低钾、低钠护理.ppt
- 滴灌系统设计(以茶叶为例).doc
- 地下连续墙幅钢筋笼技术交底大全.doc
- 第五章分式方程复习课.ppt
- 第五章食品工厂管路设计说明书.ppt
- 电磁场与电磁波答案(无填空答案).doc
- 2024年山东省日照东港区新时代文明实践中心招聘急需专业技术人员3人历年【综合基础知识500题】高频考点模拟试题及参考答案解析.docx
- 2024年山东省临沂经济技术开发区招聘劳务派遣人员44人历年【综合基础知识500题】高频考点模拟试题及参考答案解析.docx
- 2024年山东省医药工业设计院限公司职业经理人招聘1人【综合基础知识500题】高频考点模拟试题及参考答案解析.docx
- 2024年山东省济南市市中区所属事业单位招聘70人笔试【综合基础知识500题】高频考点模拟试题及参考答案解析.docx
- 2024年山东省威海市渔业资源增殖放流社会义务监督员招聘40人历年【综合基础知识500题】高频考点模拟试题及参考答案解析.docx
- 2024年山东淄博市卫生健康委员会所属事业单位招聘高层次紧缺专业技术人才156人【综合基础知识500题】高频考点模拟试题及参考答案解析.docx
- 2024年山东海洋大学数字课程资源中心招考2人【综合基础知识500题】高频考点模拟试题及参考答案解析.docx
- 2024年山东烟台市福山区事业单位招考56人【综合基础知识500题】高频考点模拟试题及参考答案解析.docx
- 2024年山东省东平县事业单位招聘290人历年【综合基础知识500题】高频考点模拟试题及参考答案解析.docx
- 2024年山东滨州滨城区招聘控制总量备案管理幼儿教师及工作人员80人【综合基础知识500题】高频考点模拟试题及参考答案解析.docx
文档评论(0)