网站大量收购闲置独家精品文档,联系QQ:2885784924

分享一:分布式计算技术(一)解读.pptx

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分享一:分布式计算技术(一)解读

分享一:分布式计算技术(一) 内容 大数据技术架构 分布式计算主要软件介绍 Hadoop环境搭建流程 大数据技术架构 腾讯 腾讯 腾讯 百度 阿里巴巴 分布式计算主要软件介绍 分布式计算主要软件介绍 分布式计算主要软件介绍 分布式计算主要软件介绍 分布式计算主要软件介绍 分布式计算主要软件介绍 这一切是如何开始的—Web上庞大的数据! 使用Nutch抓取Web数据 要保存Web上庞大的数据——HDFS应运而生 如何使用这些庞大的数据? 采用Java或任何的流/管道语言构建MapReduce框架用于编码并进行分析 如何获取Web日志,点击流,Apache日志,服务器日志等非结构化数据——fuse,webdav, chukwa, flume, Scribe Hiho和sqoop将数据加载到HDFS中,关系型数据库也能够加入到Hadoop队伍中 MapReduce编程需要的高级接口——Pig, Hive, Jaql 具有先进的UI报表功能的BI工具- Intellicus Map-Reduce处理过程使用的工作流工具及高级语言 监控、管理hadoop,运行jobs/hive,查看HDFS的高级视图—Hue, karmasphere, eclipse plugin, cacti, ganglia 支持框架—Avro (进行序列化), Zookeeper (用于协同) 更多高级接口——Mahout, Elastic map Reduce 同样可以进行OLTP——Hbase 分布式计算主要软件介绍 Common:一组分布式文件系统和通用I/O的组件与接口(序列化、Java RPC和持久化数据结构)。 Avro:一种支持高效、跨语言的RPC以及永久存储数据的序列化系统。 MapReduce:分布式数据处理模型和执行环境,运行于大型商用机集群。 HDFS:分布式文件系统,运行于大型商用机集群。 Pig:一种数据流语言和运行环境,用以检索非常大的数据集。Pig 运行在MapReduce和HDFS的集群上。 Hive:一个分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据,并提供基于 SQL的查询语言(由运行时引擎翻译成MapReduce作业)用以查询数据。 HBase:一个分布式、按列存储数据库。HBase使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询(随机读取)。 ZooKeeper:一个分布式、可用性高的协调服务。ZooKeeper提供分布式锁之类的基本服务用于构建分布式应用。 Sqoop:在数据库和HDFS之间高效传输数据的工具。 Hadoop搭建流程 步骤: 1、安装虚拟机环境 2、安装操作系统 3、安装一些常用的软件 4、修改主机名和网络配置 5、修改/etc/hosts文件。 6、配置ssh,实现无密码登陆 7、上传jdk,并配置环境变量。 8、上传hadoop,配置hadoop ①修改环境变量,将hadoop加进去(最后四个linux都操作一次) ②修改/usr/local/hadoop/conf下配置文件 ③最后要记得,将hadoop的用户加进去,命令为 ④让hadoop配置生效 ⑤格式化namenode,只格式一次 ⑥启动hadoop ⑦查看进程,是否启动 参考资料:/laov/p/3421479.html HBase搭建流程 步骤: 下载HBase包 tar -zxvf Hbase*.tar.gz 解压HBase 修改conf目录下的配置文件: a)hbase-env.sh b)hbase-site.xml c)修改conf下的regionservers文件 d)再修改Hadoop hdfs-site.xml下的一个属性值。 拷贝hbase到所有的节点 启动顺序: 先启动Hadoop-》hbase,如果使用自己安装的zookeeper启动顺序是:Hadoop-》zookeeper-》hbase 参考资料: /chabale/article/details/8808620 Hive安装流程 步骤 一、查看需求 安装java 1.6及hadoop 0.20.x 二、安装hive 下载安装包并解压 修改环境配置文件 修改hive的配置文件 在hdfs下创建所需目录并赋权限 启动hive: 三、安装mysql 安装MySQL服务器并启动MySQL服务 为Hive建立相应的MySQL帐号,并赋予足够的权限 在Hive的conf目录下修改配置文件hive-site.xml 把MySQL的JDBC驱动包复制到Hive的lib目录下。 启动Hive shell,执行 参考资料: /lib/view/open1330908496483.html

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档