大数据技术进展与发展趋势.docVIP

下载本文档

4
0
约4.92千字
约 9页
2019-11-02 发布于安徽
举报
版权申诉

大数据技术进展与发展趋势.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

. . . .. . 学习好帮手大数据技术进展与发展趋势在大数据时代，人们迫切希望在由普通机器组成的大规模集群上实现高性能的以机器学习算法为核心的数据分析，为实际业务提供服务和指导，进而实现数据的最终变现。与传统的在线联机分析处理OLAP不同，对大数据的深度分析主要基于大规模的机器学习技术，一般而言，机器学习模型的训练过程可以归结为最优化定义于大规模训练数据上的目标函数并且通过一个循环迭代的算法实现，如图4所示。因而与传统的OLAP相比较，基于机器学习的大数据分析具有自己独特的特点[24]。图4 基于机器学习的大数据分析算法目标函数和迭代优化过程（1）迭代性：由于用于优化问题通常没有闭式解，因而对模型参数确定并非一次能够完成，需要循环迭代多次逐步逼近最优值点。（2）容错性：机器学习的算法设计和模型评价容忍非最优值点的存在，同时多次迭代的特性也允许在循环的过程中产生一些错误，模型的最终收敛不受影响。（3）参数收敛的非均匀性：模型中一些参数经过少数几轮迭代后便不再改变，而有些参数则需要很长时间才能达到收敛。这些特点决定了理想的大数据分析系统的设计和其他计算系统的设计有很大不同，直接应用传统的分布式计算系统应用于大数据分析，很大比例的资源都浪费在通信、等待、协调等非有效的计算上。传统的分布式计算框架MPI（message passing interface，信息传递接口）[25]虽然编程接口灵活功能强大，但由于编程接口复杂且对容错性支持不高，无法支撑在大规模数据上的复杂操作，研究人员转而开发了一系列接口简单容错性强的分布式计算框架服务于大数据分析算法，以MapReduce[7]、Spark[8]和参数服务器ParameterServer[26]等为代表。分布式计算框架MapReduce[7]将对数据的处理归结为Map和Reduce两大类操作，从而简化了编程接口并且提高了系统的容错性。但是MapReduce受制于过于简化的数据操作抽象，而且不支持循环迭代，因而对复杂的机器学习算法支持较差，基于MapReduce的分布式机器学习库Mahout需要将迭代运算分解为多个连续的Map 和Reduce 操作，通过读写HDFS文件方式将上一轮次循环的运算结果传入下一轮完成数据交换。在此过程中，大量的训练时间被用于磁盘的读写操作，训练效率非常低效。为了解决MapReduce上述问题，Spark[8] 基于RDD 定义了包括Map 和Reduce在内的更加丰富的数据操作接口。不同于MapReduce 的是Job 中间输出和结果可以保存在内存中，从而不再需要读写HDFS，这些特性使得Spark能更好地适用于数据挖掘与机器学习等需要迭代的大数据分析算法。基于Spark实现的机器学习算法库MLLIB已经显示出了其相对于Mahout 的优势，在实际应用系统中得到了广泛的使用。近年来，随着待分析数据规模的迅速扩张，分析模型参数也快速增长，对已有的大数据分析模式提出了挑战。例如在大规模话题模型LDA 中，人们期望训练得到百万个以上的话题，因而在训练过程中可能需要对上百亿甚至千亿的模型参数进行更新，其规模远远超出了单个节点的处理能力。为了解决上述问题，研究人员提出了参数服务器（Parameter Server）的概念[26]，如图5所示。在参数服务器系统中，大规模的模型参数被集中存储在一个分布式的服务器集群中，大规模的训练数据则分布在不同的工作节点（worker）上，这样每个工作节点只需要保存它计算时所依赖的少部分参数即可，从而有效解决了超大规模大数据分析模型的训练问题。目前参数服务器的实现主要有卡内基梅隆大学的Petuum[27]、PSLit[28]等。图5 参数服务器工作原理在大数据分析的应用过程中，可视化通过交互式视觉表现的方式来帮助人们探索和理解复杂的数据。可视化与可视分析能够迅速和有效地简化与提炼数据流，帮助用户交互筛选大量的数据，有助于使用者更快更好地从复杂数据中得到新的发现，成为用户了解复杂数据、开展深入分析不可或缺的手段。大规模数据的可视化主要是基于并行算法设计的技术，合理利用有限的计算资源，高效地处理和分析特定数据集的特性。通常情况下，大规模数据可视化的技术会结合多分辨率表示等方法，以获得足够的互动性能。在科学大规模数据的并行可视化工作中，主要涉及数据流线化、任务并行化、管道并行化和数据并行化4 种基本技术[29]。微软公司在其云计算平台Azure 上开发了大规模机器学习可视化平台（Azure Machine Learning），将大数据分析任务形式为有向无环图并以数据流图的方式向用户展示，取得了比较好的