分享一：分布式计算技术(一)解读.pptx

下载文档 降价啦

3
0
约1.97千字
约 18页
2017-03-31 发布于湖北
举报
版权申诉
保障服务

分享一：分布式计算技术(一)解读.pptx

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

分享一：分布式计算技术(一)解读

分享一：分布式计算技术（一）内容大数据技术架构分布式计算主要软件介绍 Hadoop环境搭建流程大数据技术架构腾讯腾讯腾讯百度阿里巴巴分布式计算主要软件介绍分布式计算主要软件介绍分布式计算主要软件介绍分布式计算主要软件介绍分布式计算主要软件介绍分布式计算主要软件介绍这一切是如何开始的—Web上庞大的数据! 使用Nutch抓取Web数据要保存Web上庞大的数据——HDFS应运而生如何使用这些庞大的数据? 采用Java或任何的流/管道语言构建MapReduce框架用于编码并进行分析如何获取Web日志，点击流，Apache日志，服务器日志等非结构化数据——fuse,webdav, chukwa, flume, Scribe Hiho和sqoop将数据加载到HDFS中，关系型数据库也能够加入到Hadoop队伍中 MapReduce编程需要的高级接口——Pig, Hive, Jaql 具有先进的UI报表功能的BI工具- Intellicus Map-Reduce处理过程使用的工作流工具及高级语言监控、管理hadoop，运行jobs/hive，查看HDFS的高级视图—Hue, karmasphere, eclipse plugin, cacti, ganglia 支持框架—Avro (进行序列化), Zookeeper (用于协同) 更多高级接口——Mahout, Elastic map Reduce 同样可以进行OLTP——Hbase 分布式计算主要软件介绍 Common:一组分布式文件系统和通用I/O的组件与接口(序列化、Java RPC和持久化数据结构)。 Avro:一种支持高效、跨语言的RPC以及永久存储数据的序列化系统。 MapReduce:分布式数据处理模型和执行环境，运行于大型商用机集群。 HDFS:分布式文件系统，运行于大型商用机集群。 Pig:一种数据流语言和运行环境，用以检索非常大的数据集。Pig 运行在MapReduce和HDFS的集群上。 Hive:一个分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据，并提供基于 SQL的查询语言(由运行时引擎翻译成MapReduce作业)用以查询数据。 HBase:一个分布式、按列存储数据库。HBase使用HDFS作为底层存储，同时支持MapReduce的批量式计算和点查询(随机读取)。 ZooKeeper:一个分布式、可用性高的协调服务。ZooKeeper提供分布式锁之类的基本服务用于构建分布式应用。 Sqoop:在数据库和HDFS之间高效传输数据的工具。 Hadoop搭建流程步骤： 1、安装虚拟机环境 2、安装操作系统 3、安装一些常用的软件 4、修改主机名和网络配置 5、修改/etc/hosts文件。 6、配置ssh，实现无密码登陆 7、上传jdk，并配置环境变量。 8、上传hadoop，配置hadoop ①修改环境变量，将hadoop加进去（最后四个linux都操作一次） ②修改/usr/local/hadoop/conf下配置文件 ③最后要记得，将hadoop的用户加进去，命令为 ④让hadoop配置生效 ⑤格式化namenode，只格式一次 ⑥启动hadoop ⑦查看进程，是否启动参考资料：/laov/p/3421479.html HBase搭建流程步骤：下载HBase包 tar -zxvf Hbase*.tar.gz 解压HBase 修改conf目录下的配置文件： a）hbase-env.sh b）hbase-site.xml c）修改conf下的regionservers文件 d）再修改Hadoop hdfs-site.xml下的一个属性值。拷贝hbase到所有的节点启动顺序：先启动Hadoop-》hbase，如果使用自己安装的zookeeper启动顺序是：Hadoop-》zookeeper-》hbase 参考资料： /chabale/article/details/8808620 Hive安装流程步骤一、查看需求安装java 1.6及hadoop 0.20.x 二、安装hive 下载安装包并解压修改环境配置文件修改hive的配置文件在hdfs下创建所需目录并赋权限启动hive：三、安装mysql 安装MySQL服务器并启动MySQL服务为Hive建立相应的MySQL帐号，并赋予足够的权限在Hive的conf目录下修改配置文件hive-site.xml 把MySQL的JDBC驱动包复制到Hive的lib目录下。启动Hive shell，执行参考资料： /lib/view/open1330908496483.html