网站大量收购闲置独家精品文档,联系QQ:2885784924

《大数据导论》课件 第4章 大数据处理.pptx

《大数据导论》课件 第4章 大数据处理.pptx

  1. 1、本文档共160页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第4章大数据处理演讲人2024-08-08

目录4.1大数据处理框架4.2大数据分布式存储4.3大数据分布式计算

014.1大数据处理框架

4.1.1主流大数据处理框架简介大数据处理的基本环节包含大数据存储与大数据分析两大部分。其中大数据存储包含数据采集、存储和管理,大数据分析包含数据计算、挖掘和应用。大数据技术是众多技术的组合,缺一不可,共同组成大数据的处理体系。因此,业界针对不同特性的大数据及其分析技术,设计并构建了大数据处理框架。大数据处理框架集成了各类技术,能够胜任不同特性的大数据存储与计算。表4-1给出了代表性的大数据处理框架及其提供的大数据处理技术。

4.1.1主流大数据处理框架简介表4-1代表性的大数据处理框架及其所提供的大数据处理技术

4.1.1主流大数据处理框架简介批处理大数据计算框架批处理计算是大数据最早的经典应用场景之一。批处理计算的需求源于数据挖掘在大数据场景下的拓展。在传统小规模数据的分析与挖掘中,通常使用经典的数据挖掘方法,从数据中挖掘出有意义的知识,从而正确的指导生产、生活中的决策。例如:奔驰汽车的生产线通过收集数据进行分析和挖掘,优化生产线提升生产的效率。然而,随着大数据时代的来临,传统数据挖掘方法已经无法满足大数据场景的需求。通常,在单台机器上设计的数据挖掘方法通常针对兆字节(MB)级,当数据拓展至十亿字节(GB)级别时,数据挖掘方法所需的时间将会呈指数增长,无法在给定的时间内获得挖掘结果。批处理计算的诞生就是为了解决大数据场景下的数据分析与挖掘。其中,MapReduce是最具代表性的大数据批处理计算模型。MapReduce支持分布式编程,能够将传统的数据分析与挖掘方法扩展至并行计算过程,

4.1.1主流大数据处理框架简介批处理大数据计算框架可用于太字节(TB)级海量大数据的分析与挖掘。实际上,MapReduce将复杂的数据分析与挖掘任务,抽象化成Map函数和Reduce函数,数据分析与挖掘人员可以轻松将所编写的方法拓展至并行计算框架,并运行在分布式系统上完成海量大数据的计算。MapReduce批处理计算模型基于磁盘读写海量大数据,因此受到磁盘I/O瓶颈的影响,具有较大的时延性。为了解决高时延问题,SparkCore批处理框架则基于分布式内存读写海量大数据,具有较低延迟,能够进行更高效率的分布式批处理计算任务。

4.1.1主流大数据处理框架简介流式大数据计算框架流式大数据是大量、快速、时变的以“流水”形式持续到达系统的大数据的统称。近年来,随着物联网和人工智能技术的兴起,以传感器为代表的大数据采集形成了流式大数据,如网络监控摄像头、Web2.0应用视频流等。流式大数据的来源多种多样,与传统静态大数据的区别包含三个方面:

(1)始终在线,持续流动:新数据像“水流”一样源源不断生成,很少会出现数据不足的情况,但是对流式大数据的分析要强调实时性、突发性、无序性和易失性;

(2)结构松散,随意变动:流式大数据的结构较为松散,其原因在于流式大数据环境对数据结构和类型要求不严格,另外多数流式大数据处于新兴行业,可能存在不同的数据格式或者随时出现数据流终端的可能;

4.1.1主流大数据处理框架简介流式大数据计算框架(3)高基数存储特性:与批处理计算任务可以重复多次不同,流式大数据的计算往往仅能进行一次,对于存储环境要求更为严格,对大规模实时持续到达系统的数据读写性能要求更高。

由于流式大数据呈现大规模实时持续到达的特性,隐含在大数据中有价值的知识将会伴随着时间的流逝而消失。针对这类在时间分辨率和数量上接近于无限的动态大数据,在进行分析和计算时需要给出秒级甚至亚秒级响应。因此,流式大数据计算框架要求有实时分析能力,并且能够针对高基数存储、结构松散且持续到达的数据流进行计算,给出有价值的分析结果。目前,由于流式大数据在商业互联网活动中呈现占比越来越高的趋势,大型企业已经开发了用于企业级流式大数据处理的框架。例如:阿里巴巴开发了银河流数据计算平台,百度开发了DStream流式大数据计算框架。

4.1.1主流大数据处理框架简介流式大数据计算框架在开源流式大数据框架中,也涌现了成熟、可靠的框架,例如Storm流式大数据计算框架,可以轻松、可靠的处理各种结构的数据流,每秒给出百万级数据计算结果响应。另外,依托于Spark成熟的体系架构,架构在其上的SparkStreaming流式计算框架,也具有快速处理流式大数据、给出亚秒级响应的能力。

4.1.1主流大数据处理框架简介图式大数据计算框架“图数据”的基本元素为“图(Graph)”,最基本的图结构由顶点和边组成,每个顶点代表一个实体(事务、类别或数据),每条边代表两个实体之间的关联关系。两个实体之间的关系可以用有向边或无向边表示。如图4-1

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档