- 1、本文档共30页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
QConShanghai2013-大数据和深度机器学习介绍.pdf
QCon北京2014大会 4月25—27日
@InfoQ infoqchina
大数据及深度机器学习介绍
张潼
2013年11月2 日
⼤数据在互联⺴
数据是互联⺴公司的最⼤战略资源
创造⽤户体验
创造商业价值
核⼼技术
infrastructure
⼤数据管理 :
⼤数据分析: machine learning
system integration
应⽤ :
机器学习
• ⺫标:让计算机系统更智能
• ⼤数据+计算能⼒+复杂模型+⾼效算法è智能
⽅法 :
搜索⼲告
机器学习问题
• 点击率(CTR)预估
•
问题规模 :
数据存储和管理 :上万台机器
数据量 :百亿到千亿级
特征数 :百亿到千亿级 (稀疏离散值特征)
• ⼤型线性Logistic Regression模型
• 计算技术 :分布式同步CPU并⾏计算
语⾳识别
è è è 你好
机器学习问题
• 把声学信号变成⽂字 :多分类问题
• 问题规模
万⼩时级语料
百亿级训练数据
上万类别 ;⼏百维特征 (稠密连续值特征)
• 深度神经⺴络模型
• 计算技术 :分布式异步GPU计算
机器学习流程
processing
input data
data
trained
training
model
learning algorithm
information
decision
⼤规模机器学习
• 基础架构
分布式数据存储,管理,和分析
分布式CPU/GPU计算平台
• 算法
模型和特征提取
数据抽样
⼤型机器学习模型优化
数据管理
• Hadoop: ⼤数据存储 de facto standard
分布式⽂件系统(HDFS)
Map-Reduce
可⽤于机器学习特征提取
计算性能
CPU: complex tasks GPU: simple tasks extreme
您可能关注的文档
- PI3K通路和其抑制剂抗肿瘤的研究进展.pdf
- PIC16F873单片机在液位测量中应用.pdf
- PID和模糊控制算法的比较及其改进.pdf
- PLC与触摸屏在自动喷灌控制器中的应用.pdf
- PLC在机械手搬运工件中运用(定稿).doc
- PLC机床电气控制技术(用).ppt
- PLC新技术和新应用介绍.ppt
- PMC-53X_MODBUS规约V6.0.pdf
- PMC-550MModbus通信规约_V1.6_20120706.pdf
- PMW3000_MODBUS通讯协议_V18.pdf
- 汽车改装设备项目可研报告_图文 .pdf
- 2022-2023学年内江市重点中学中考化学模试卷含解析 .pdf
- 2018-2019年石家庄市红星学校一年级上册语文模拟练习题无答案 .pdf
- 机电专业一级注册建造师培训心得体会暨结业报告 .pdf
- 1.2.4走近科学的探究教学设计-2024-2025学年九年级化学人教版上册.pdf
- 2020年七年级语文上册 第三单元 11《论语》十二章导学案 新人教版.pdf
- 2020-2021人教版数学七年级下册 第8章 二元一次方程 .pdf
- 2019年春北师大数学七年级下第六章 概率初步2单元检测含答案.pdf
- 机电实习报告怎么写5篇 .pdf
- 江苏省盐城市2023-2024学年高二上学期10月联考物理试题含解析.pdf
文档评论(0)