第2章大数据技术基础.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第2章 大数据技术基础;2.1 基础架构支持 2.1.1 Hadoop 2.1.2 Hbase 2.1.3 MapReduce 2.1.4 Hive 2.1.5 Pig 2.1.6 R语言 2.2 云计算 2.2.1 云计算的特点 2.2.2 云计算与大数据 2.3 数据采集 2.3.1 数据采集的意义 2.3.2 数据采集的方法 2.4 数据存储 2.4.1 数据存储的概念 2.4.2 数据存储方式 2.4.3 常见数据源类型 实验1 识大数据分析工具“魔镜” ;;2.1 基础架构支持;Hadoop之父;Hadoop技术架构; 2.1.2 HBase HBase是运行在Hadoop上的NoSQL数据库,它是一个分布式的和可扩展的大数据仓库,也就是说HBase具有HDFS的分布式处理的优势,HBase本身就是十分强大的数据库,它能够融合key/value存储模式带来实时查询的能力,以及通过MapReduce进行离线处理或者批处理的能力。 HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。 所谓非结构化数据存储就是说HBase是基于列的而不是基于行的??式。;2.1.3 MapReduce MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。Map--映射,Reduce--归约。MapReduce采用分而治之的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是任务的分解与结果的汇总。;在Hadoop中,每个MapReduce任务都被初始化为一个Job,每个Job又可以分为两种阶段:map阶段和reduce阶段。这两个阶段分别用两个函数表示,即map函数和reduce函数。map函数接收一个key,value形式的输入,然后同样产生一个key,value形式的中间输出,Hadoop函数接收一个如key,(list of values)形式的输入,然后对这个value集合进行处理,每个reduce产生0或1个输出,reduce的输出也是key,value形式的。; 2.1.4 Hive Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。;2.1.5 Pig Pig是一个基于Hadoop的大规模数据分析平台,Pig包含两个部分:Pig Interface,Pig Latin。它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。; 2.1.6 R语言 R是一套完整的数据处理、计算和制图软件系统。 其功能包括: 数据存储和处理系统;数组运算工具(其向量、矩阵运算 方面功能尤其强大);完整连贯的统计分析工具;优秀的统计 制图功能;简便而强大的编程语言:可操纵数据的输入和输出, 可实现分支、循环。 R语言擅长在Hadoop分布式文件系统中存储的非结构化数 据的分析。R现在还可以运行在HBase这种非关系型的数据库 以及面向列的分布式数据存储之上。; 2.2 云计算;2.2.1 云计算的特点 1.可扩展性:从资源低效率的分散使用到资源高效的集约化使用正是云计算的基本特征之一。 2.按需提供资源服务:云计算系统实现按需向用户提供资源能大大节省用户的硬件资源开支。 3.虚拟化:现在的云计算平台的重要特点是利用软件来实现硬件资源的虚拟化管理、调试及应用。 4.超大规模:应用于“云”的服务器数量就在几十万甚至上百万之多,“云”也会给用户带来前所未有的计算能力。 5.高可靠性和安全性:在使用“云”的服务的过程中,服务器使用了数据多副本容错、计算节点同构可互换等措施在保障服务的高可靠性。; 2.2.2 云计算与大数据 云计算与大数据之间是相辅相成,相得益彰的关系。云计算就是硬件资源的虚拟化;大数据分析就是海量数据的高效处理。大数据挖掘处理需要云计算作为平台,而大数据涵盖的价值和规律则能够使云计算更好的与行业应用结合并

文档评论(0)

xiaowei110 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档