第三章 Petuum大数据分布式机器学习平台.pdfVIP

下载本文档

13
0
约7.88千字
约 7页
2017-06-24 发布于北京
举报
版权申诉

第三章 Petuum大数据分布式机器学习平台.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Petuum，大数据分布式机器学习平台 2015-01-07 2014 中国大数据技术大会首日全体会议中，卡耐基梅隆大学教授、ICML 2014 程序主席邢波带来了名为“A New Platform for Cloud-based Distributed Machine Learning on BigData”的主题演讲。期间，邢波表示，着眼当下大数据处理平台，大量资源都都浪费在集群的通讯上。即使比较优秀的平台，计算时间也只有20%，通讯时间占到80%，就比如Hadoop 的通讯时间占到90%。以下为演讲实录：邢波：我首先感谢大学组委会邀请我来给这儿做一个报告。我这个报告风格可能跟以前几个不一样，干货比较多，有一些正规的实验结果，甚至有一些数学公式，我很乐意分享一下刚刚从学生那得出的结果。用于大数据的分布式机器学习运算的平台。当我们面对大数据，大家首先问到的问题，我们从大数据里面能挖到什么东西，大数据到底有什么用？这个问题大家已经看到了很多展示，这块就不再重复或者追加。我这儿希望能够讲一个更加无趣但是基本的问题，如何来进行大规模的大数据运算，如何把它做对。这个原因是？现在数据量如何之大，以后关键的问题会是对数据的正确理解，而这里边的工具到底是什么呢？至少在我们计算机学家目前的经历来看，很多人同意机器学习和它代表的统计学习的算法可能是一个对数据进行有效挖掘的途径。我这里就要探讨一下如何把这个工具过渡到大数据的平台上，而这个大字对以前的研究产生什么影响。有必要强调一下这个问题的重要性。现在有很多对大数据的忽悠，很多文章都会说数据就是金钱，有很多数据的话你就变得很有财富，甚至你变得非常聪明。没有一个很好有效体系对这个数据作为分析，其实数据不等于知识，森林里面倒下一棵树，你没看到的话，它倒没倒下，你就不知道。今天讲这些技术型的问题。为什么大数据的机器挖掘比较困难，首先数据量变大，挑战了存储、通讯甚至处理的极限，你要把它分布到一个大的数据中心去。但是其实挑战不仅仅是这一些，当数据变得很大的时候，你的问题变得很复杂，需要聪明大脑和聪明的模型理解。大家在大型公司里面有几百个E，从单机里面溢出需要并行处理，想把这步做对并不是简单的问题，这就涉及到第三个问题，当这些软件包工具到底在哪儿？你可能看到刚才讲解者展示IBM 的系统，余凯先生会展示百度的系统，大数据的问题都是大型企业他们专属权利，而比较屌丝级别的公司就没有办法处理，是不是这样的东西？我想大数据记忆库普及变得非常好用情况就会改观。数据库不能包括简单的工具，这些工具都有20、30 年的历史还在用但并不是很有效，我们要的高大上的工具，深度学习、化学模型、协同过滤这些东西在很近代的教课书里面出现，还在被很高级的公司积极使用，他们到底有什么样的一些技术上的挑战，防止普通人或者更多大公司使用。我这里要提出一个问题，当你这个数据或者是模型大到了从一个机器内存里面溢出，大家希望显然是这么一张曲线，我不断加机器，越加越多能力越高，这是大家的期望。如果各位开发人员尤其工程人员有实际经历，当我给你一千台机器你的能力并没有增加一千倍，机器有很多的时候，你有资源各种各样的时间浪费在没有用处计算，比如说通讯、等待、协调这些方面。我们看到的一个曲线是这样的一个曲线，对于计算机学家来说，固然去拿大数据来做挖掘，提供信息也很重要，但是我觉得计算机学家另外一个很重要的任务提供方法论和工具，把这个曲线从这儿提到这儿，这就是我待会讲话中心内容。我为什么说现在已有的系统不足以实现我们刚才所希望的功能呢？这块我举几个例子。比如说有很多机器学习的学者，他们显然对大数据很感兴趣，由于本人本身训练或者是习惯思维缘故，他们对系统知识并不了解，他们看到一百个机器跟一台机器的差别只不过乘了一百，中间的代价或者是机器的失效几率他们可以都不太考虑，所以他们的算法主要是针对数学上的正确性或者是迭代算法迭代次数减少性，但是他们不会钻研这个算法到底在一个真实的机器上怎么运作，他们会写这么一个程序，中间有一句话，并行运算，这个就开始发生了，把这些东西放在很多机器上算好。实际过程中，我至少看到是这样一个情况，你去做一个小实验，去测量用在计算上的时间和用在通讯上的时间，最好结果也无非如此，20%的时间花在机器上面，80%的时间花在等待，这种理想状态不存在，所以这些算法不被经常应用。系统工程师对智慧学习或者统计学习原理或者技术并不见得非常