- 1、本文档共41页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据时代 沃尔玛的故事,啤酒和尿不湿 大数据案例——电影票房预测 大数据真的来了么? 大数据真的来了么? 据统计我国2013年约产生8亿PB的数据量,其中以百度、腾讯、阿里为代表的互联网企业产生约1000个PB的数据量。人类现在正处在一个以“PB”为数据单位的新时代,这个时代被称为Big Data,或者我们现在更为熟悉的名称——大数据。在大数据时代中,人们似乎是淹没在了数据的海洋。说淹没在数据的海洋,实在是高估了海的深度和宽度,也许数据的银河或者宇宙更为合适。 ——中国大数据产业观察网 hadoop生态系统 hadoop的生态系统 HDFS(Hadoop分布式文件系统) MapReduce是一种计算模型,用以进行大数据量的计算。 Hive定义了一种类似SQL的查询语言(HQL),将SQL转化为MapReduce任务在Hadoop上执行。 HBase是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。 Zookeeper是用来解决分布式环境下的数据管理问题:统一命名,状态同步,集群管理,配置同步等。 Sqoop是SQL-to-Hadoop的缩写,主要用于传统数据库和Hadoop之前传输数据。 Pig定义了一种数据流语言—Pig Latin,将脚本转换为MapReduce任务在Hadoop上执行。 HDFS体系结构 上图中展现了整个HDFS三个重要角色: NameNode可以看作是分布式文件系统中的管理者,主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。NameNode会将文件系统的Meta-data存储在内存中,这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等。 DataNode是文件存储的基本单元,它将Block存储在本地文件系统中,保存了Block的Meta-data,同时周期性地将所有存在的Block信息发送给NameNode。 Client就是需要获取分布式文件系统文件的应用程序。 HDFS的常用命令 start-all.sh --启动hadoop集群 hdfs name -format --格式化hdfs文件系统 hdfs dfsadmin -report --报告节点的状态 hdfs dfsadmin -safemode leave --离开安全模式 hdfs dfs -ls / --显示文件系统/下的文件 hdfs dfs -mkdir /user --在/下建立user文件夹 hdfs dfs -rm -r /user --删除文件系统中/下的user文件夹 hdfs dfs -put /root/Desktop/123.jar / --将桌面的文件上传 什么是MapReduce Map/Reduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集。 Map —— 映射 Reduce —— 化简 MapReduce工作原理 MapReduce工作原理 map MapReduce工作原理 map端的排序及合并过程 MapReduce工作原理 reduce端的排序及输出 什么是hive? hive是基于Hadoop的一个数据仓库工具。 hive可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 Hive的设计目的是为了那些精通SQL技能的分析师能够对存放在HDFS上的大规模数据集进行操作。 hive的基本语法 CREATE TABLE tmp_table #表名 { title string , #字段名 字段类型 minimun_bid double, quantity bigint, have_invoice bigint }COMMENT XXX #表注解 PARTITIONED BY(pt STRINT) #分区表字段(文件大则采用分区) ROW FORMAT DELIMITED FIELDS TERMINATED BY \001 #字段分割 STORED AS SEQUENCEFILE; #采用那种存储方式存储数据 SEQUENCEFILE是hadoop自带的文件压缩格式 更多语法 hive与传统数据库比较 hadoop环境搭建 安装linux操作系统 配置l
文档评论(0)