智云大数据云计算信息化实验室解决方案课件.ppt

智云大数据云计算信息化实验室解决方案课件.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
MapReduce - 映射、化简编程模型 MapReduce是一种编程模型,用于大规模数据集的并行运算。Map(映射)和Reduce(化简),采用分而治之思想,先把任务分发到集群多个节点上,并行计算,然后再把计算结果合并,从而得到最终计算结果。多节点计算,所涉及的任务调度、负载均衡、容错处理等,都由MapReduce框架完成,不需要编程人员关心这些内容。 Map负责将job分解成多个任务;Reduce负责把分解后多任务的处理结果合并起来。 Hadoop将HDFS输入数据分成固定大小的块,我们称之为Input Split。 Split中的数据作为Map的输入,每个split对于一个map线程,多个Map线程组成一个Map Task ; Split分片数据由多个Map Task处理之后,经过排序、合并输出处理结果; Reduce 将Map Task的输出结果作为其输入,通过多个Reduce Task并行处理,合并Map Task的输出结果作为整个Job的输出。 MapReduce编程IDE插件 HBase - 分布式数据存储 HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统; HBase位于结构化存储层,HDFS为HBase提供高可靠性的底层存储支持,MapReduce为HBase提供了高性能的计算能力,Zookeeper为HBase提供了稳定服务和故障恢复机制; Pig和Hive还为HBase提供了高层语言支持,使得在HBase上进行数据统计处理变的简单。 Hive - 数据仓库工具 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析 可扩展 Hive可以自由的扩展集群的规模,一般情况下不需要重启服务 延展性 Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数 容错 良好的容错性,节点出现问题SQL仍可完成执行 Pig - 数据流分析工具 Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-like语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口。 支持嵌套 Pig提供了更加丰富的数据结构?,支持值和嵌套的数据结构。 可扩展 Pig 被设计为可以?扩展?的,处理路径上的每一个部分,都是可以使用用户定义函数(UDF?)进行?修改。 可重用 用户自定义函数?UDF比MapReducer程序开发的库更易于重用。 Mahout - 数据挖掘机器学习类库 Mahout 是一套具有可扩充能力的机器学习类库。它提供机器学习框架的同时,还实现了一些可扩展的机器学习领域经典算法的实现,可以帮助开发人员更加方便快捷地创建智能应用程序。通过和 Apache Hadoop 分布式框架相结合,Mahout 可以有效地使用分布式系统来实现高性能计算。 Mahout 现在提供 4 种使用场景的算法。 ? 推荐引擎算法:通过分析用户的使用行为的历史记录来推算用户最可能喜欢的商品、服务、套餐的相关物品。 ? 聚类算法:通过分析将一系列相关的物品等划分为相关性相近的群组。 ? 分类算法:通过分析一组已经分类的物品,将其他未分类的其他物品按同样规则归入相应的分类。 ? 相关物品分析算法:识别出一系列经常一起出现的物品组(经常一起查询、放入购物 车等)。 课程设计及实验目录 《ZCloud云计算大数据技术实验指导书》 第1章 认识Hadoop 第4章 HDFS文件I/O详解 第7章 MapReduce高级应用 第10章 数据仓库工具Hive 1.1 Hadoop概述 4.1 Hadoop文件的数据结构 7.1 计数器 10.1 Hive的组成 1.2 Hadoop初体验 4.2 HDFS数据完整性 7.2 自定义数据类型 10.2 Hive的安装…… 第2章 MapReduce快速入门 4.3 文件序列化…… 7.3 自定义输入格式…… 第11章 Sqoop实战 2.1 WordCount实例 第5章 Eclipse插件应用 第8章 开源数据库HBase 11.1 Sqoop简介 2.2 MapReduce代码实现 5.1 Eclipse下MapReduce开发 8.1 Hbase简介 11.2 Sqoop安装…… 2.3 打包、部署和运行 5.2 MapReduce的Debug调试 8.

文档评论(0)

130****8663 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档