大数据关键技术剖析及系统实例剖析.docVIP

下载本文档

5
0
约3.32千字
约 8页
2018-11-13 发布于福建
举报
版权申诉

大数据关键技术剖析及系统实例剖析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据关键技术剖析及系统实例剖析

大数据关键技术剖析及系统实例剖析　　[摘要]根据大数据处理形式不同，将大数据计算分为批量处理计算和流式处理计算，对大数据中的批量处理计算和流式处理计算进行了分析，介绍了不用的大数据应用场景、数据特征和代表性处理系统，分析批量计算中的关键技术（系统架构、分布式文件系统、分布式数据处理系统）和流式计算关键技术（系统架构、数据传输、编程接口）。　　[关键词]大数据分析批量处理计算流式处理计算　　中图分类号：X734.2 文献标识码：A 文章编号：1009-914X（2016）10-0206-01 　　1 引言　　随着互联网技术的不断发展，物联网技术、移动互联技术、社交媒体等技术及其应用在是越来越多，全球的数据急剧膨胀，人类已经步入了大数据的时代。大数据中包含着大量的隐含信息，需要从这些隐含的信息中提取有价值的大知识，这些大的知识将在更高的层面上、更广阔的视角、更大范围内对用户提供洞察力、决策力，为人类以及社会创造更大的利益以及价值。目前主流的大数据库计算模式分为两种，分别为批量式计算和流式计算两种模式。　　在批量计算模式中，首先是需要对海量数据进行存储，然后对这些存储的静态数据进行集中起来进行计算，目前的Hadoop就是一种非常典型的批量计算架构；在流式计算模式中，无法确定数据的到来时刻以及数据的次序，也不用将数据全部进行存储起来进行计算。而是当这些流动的数据到来之后直接在内存中进行实时性的处理，典型的Twitter、Storm、Yahoo的S4就是这种流式的数据计算模式。　　2 应用场景及数据特征　　2.1 批量处理系统　　对于批量处理系统来说，这类系统比较适合对于静态数据进行数据挖掘，从海量信息中获取具体的含义，得到很明智的决策，最终为领导提供辅助决策制定相应的应对措施来实现业务目标。大数据中的批量处理系统适合先进行存储然后进行计算，对于数据处理的实时性要求不是很高，但是对于数据的准确性和全面性要求更高。　　2.1.1 数据特征　　对于批量数据来说，通常具备三个典型的特征，（1）数据量比较大，数据量从TB级别到PB级别，数据主要是以静态的形式存储在磁盘上，存储的时间比较大，一般不进行数据的更新数据，海量数据可以重复进行使用，这种数据不容易移动以及备份处理；（2）数据的精度比较高，存储的这些数据一般是属于企业中的一部分，是长时间积累下来的；（3）数据价值密度相对来说比较低。往往有价值的信息比较少，因此需要采用合理的分析算法对这些批量数据进行信息抽取，同时处理批量数据比较耗时，一般不提供交互功能，当提取结果与预期差别很大时，会浪费很多时间。因此，批量处理系统比较适合相对比较成熟的作业。　　2.1.2 代表性处理系统　　对于批处理系统来说，比较典型的代表是由Google公司开发的文件系统GFS（google File System）和研发的MapReduce编程模型。虽然Google公司没有对这两项技术进行源码的公开，但是基于发表的两篇文章，Nutch子项目中的Hadoop实现了开源的两个产品：HDFS和MapReduce。Hadoop成为批量处理架构中非常典型的一种架构模式，HDFS负责对静态的数据进行存储，通过MapReduce对这些静态数据进行计算逻辑的分配。Hadoop成为很多IT公司的大数据主流架构，基于HDFS和MapReduce建立了很多项目。　　MapReduce编程模型收到很多主流IT的欢迎，主要有几个方面的原因：（1）MapReduce是一种没有共享的大规模集群系统，这种集群系统具有很好的性价比和伸缩性；（2）MapReduce模型比较简单，容易理解，便于使用。能够不仅仅处理大规模的数据，而且能够对很多细节进行隐藏（包括自动并行化、负载均衡、灾备管理等），能够很大程度上降低程序员的工作量。　　2.2 流式处理系统　　2.2.1 数据特征　　一般情况下，对于流式数据来说，是一个无穷的数据序列信息，对于流式数据中的每个序列来说数据的来源是不同的，数据可能是结构化或非结构化，这些序列往往包含时间特征，或者有其他能够表示有序的标签信息。从数据库的角度来说，流式数据中的每个元素都可以看成是一个元祖。流式数据在不同的场景中能够表现出不同的特征信息，比如表现流速的大小、元素特征的数量、数据格式不同等。　　2.2.2 代表性处理系统　　流式计算处理系统目前得到广泛的应用，包括Twitter的Storm，Facebook的Scribe，Linkedin的Samza等。本节主要是对Twitter的Storm进行详细的介绍。　　Storm的主要特点是一种基于分布式的、可靠、容错性好的流式处理系统，被分配的流式处理作业能够分发到不同的组件上，被分配的每个