- 1
- 0
- 约 30页
- 2017-08-26 发布于广东
- 举报
* QCon北京2014大会 ?4月25—27日 ? ? @InfoQ infoqchina 大数据及深度机器学习介绍 ? 张潼 ? ? ? ? ? 2013年11月2日 ? ?大数据在互联??网 数据是互联??网公司的最?大战略资源 创造?用户体验 创造商业价值 核?心技术 ?大数据管理:infrastructure ?大数据分析: machine learning 应?用:system integration 机器学习 ?? ??目标:让计算机系统更智能 ?? ?方法:?大数据+计算能?力+复杂模型+?高效算法è?智能 搜索??广告 机器学习问题 ?? 点击率(CTR)预估 ?? 问题规模: 数据存储和管理:上万台机器 数据量:百亿到千亿级 特征数:百亿到千亿级 (稀疏离散值特征) ?? ?大型线性Logistic Regression模型 ?? 计算技术:分布式同步CPU并?行计算 语?音识别 è? è? è? 你好 机器学习问题 ?? 把声学信号变成?文字:多分类问题 ?? 问题规模 万?小时级语料 百亿级训练数据 上万类别;?几百维特征 (稠密连续值特征) ?? 深度神经??网络模型 ?? 计算技术:分布式异步GPU计算 chine Learning Pipeline processing data input data training trained model learning algorithm information decision ?大规模机器学习 ?? 基础架构 分布式数据存储,管理,和分析 分布式CPU/GPU计算平台 ?? 算法 模型和特征提取 数据抽样 ?大型机器学习模型优化 数据管理 ?? Hadoop: ?大数据存储 de facto standard 分布式?文件系统(HDFS) Map-Reduce 可?用于机器学习特征提取 GPU: simple tasks extreme parallel Small memory (5G) Many cores (2K cores) Peak 3T?ops 适合: 稠密连续值 深层神经??网络计算 CPU: complex tasks Large memory (128G) Few cores (8) Peak 100+G?ops 适合: 稀疏离散特征 树模型 计算性能 X 1 w n i=1 数学问题 ?? ?大型机器学习训练优化问题: ?? 分布式多机并?行训练 n min fi (w) 问题的分配?方式 分配数据到多机 ?? 每个机器有所有模型参数 ?? 每个机器也不同数据 分配数据和特征到多机 ?? 每个机器有?一些特征和?一些参数 分配特征到多机 ?? 每个机器有所有数据的?一些特征 ?? 每个机器有不同参数 X 1 n i=1 fi (w) = ln(1 + e ?大型线性模型 n min fi (w) w w xi yi ) 多机CPU分布式计算:特征和样本发给多机 树模型 多机CPU分布式计算 把特征发到不同机器 X 1 深度神经??网络 min w n n i=1 fi (w) 多机GPU/CPU分布式计算 从浅层到深度学习 浅层??网络: ?人?工特征抽取 学习线性组合 深层??网络: 从原始特征出发 ?自动学习?高级特征组合 ?高级特征 2 Image Speech 深度学习成功条件 ?? 2010-今:在?工业界取得巨?大成功 ?? 复杂模型 ?? ?大数据:100x ?? ?大规模计算能?力:1000x ?? ?大数据+计算能?力+复杂模型+?高效算法 *
原创力文档

文档评论(0)