- 1、本文档共23页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据及深度机器学习介绍-百度开发者中心
大数据及深度机器学习介绍
张潼
2013年11月23日
大数据在互联网
数据是互联网公司的最大战略资源
创造用户体验
创造商业价值
核心技术
大数据管理:infrastructure
大数据分析: machine learning
应用:system integration
机器学习
• 目标:让计算机系统更智能
•方法:大数据+计算能力+复杂模型+高效算法智能
搜索广告
机器学习问题
•点击率(CTR )预估
• 问题规模:
数据存储和管理:上万台机器
数据量:百亿到千亿级
特征数:百亿到千亿级 (稀疏离散值特征)
•大型线性Logistic Regression模型
•计算技术:分布式同步CPU并行计算
语音识别
你好
机器学习问题
•把声学信号变成文字:多分类问题
• 问题规模
万小时级语料
百亿级训练数据
上万类别;几百维特征 (稠密连续值特征)
•深度神经网络模型
•计算技术:分布式异步GPU计算
大规模机器学习
•基础架构
分布式数据存储,管理,和分析
分布式CPU/GPU计算平台
•算法
模型和特征提取
数据抽样
大型机器学习模型优化
数据管理
• Hadoop: 大数据存储 de facto standard
分布式文件系统(HDFS )
Map-Reduce
可用于机器学习特征提取
计算性能
CPU: complex tasks GPU: simple tasks extreme
Large memory (128G) parallel
Few cores (8) Small memory (5G)
Peak 100+Gflops Many cores (2K cores)
Peak 3Tflops
适合:
稀疏离散特征 适合:
树模型 稠密连续值
深层神经网络计算
数学问题
•大型机器学习训练优化问题:
•分布式多机并行训练
问题的分配方式
分配数据到多机
• 每个机器有所有模型参数
• 每个机器也不同数据
分配特征到多机
• 每个机器有所有数据的一些特征
• 每个机器有不同参数
分配数据和特征到多机
• 每个机器有一些特征和一些参数
大型线性模型
多机CPU分布式计算:特征和样本发给多机
深度神经网络
多机GPU/CPU分布式计算
从浅层到深度学习
浅层网络: 深层网络:
人工特征抽取
从原始特征出发
学习线性组合
自动学习高级特征组合
高级特征
Image S
文档评论(0)