大数据技术原理与应用 第二章 大数据处理架构Hadoop创新.ppt

大数据技术原理与应用 第二章 大数据处理架构Hadoop创新.ppt

  1. 1、本文档共53页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据技术原理与应用 第二章 大数据处理架构Hadoop创新

2.4.5 集群的建立与安装 采购好相关的硬件设备后,就可以把硬件装入机架,安装并运行Hadoop 安装Hadoop有多种方法: (1)手动安装 (2)自动化安装 为了缓解安装和维护每个节点上相同的软件的负担,可以使用一个自动化方法实现完全自动化安装,比如Red Hat Linux’ Kickstart、Debian或者Docker 自动化安装部署工具,会通过记录在安装过程中对于各个选项的回答来完成自动化安装过程。 2.4.6 Hadoop集群基准测试 如何判断一个Hadoop集群是否已经正确安装?可以运行基准测试 Hadoop自带有一些基准测试程序,被打包在测试程序JAR文件中 用TestDFSIO基准测试,来测试HDFS的IO性能 用排序测试MapReduce:Hadoop自带一个部分排序的程序,这个测试过程的整个数据集都会通过洗牌(Shuffle)传输至Reducer,可以充分测试MapReduce的性能 2.4.7 在云计算环境中使用Hadoop Hadoop不仅可以运行在企业内部的集群中,也可以运行在云计算环境中 可以在Amazon EC2中运行Hadoop。EC2是一个计算服务,允许客户租用计算机(实例),来运行自己的应用。客户可以按需运行或终止实例,并且按照实际使用情况来付费 Hadoop自带有一套脚本,用于在EC2上面运行Hadoop 在EC2上运行Hadoop尤其适用于一些工作流。例如,在Amazon S3中存储数据,在EC2上运行集群,在集群中运行MapReduce作业,读取存储在S3中的数据,最后,在关闭集群之前将输出写回S3中;如果长期使用集群,复制S3数据到运行在EC2上的HDFS中,则可以使得数据处理更加高效,因为,HDFS可以充分利用数据的位置,S3则做不到,因为,S3与EC2的存储不在同一个节点上 本章小结 Hadoop被视为事实上的大数据处理标准,本章介绍了Hadoop的发展历程,并阐述了Hadoop的高可靠性、高效性、高可扩展性、高容错性、成本低、运行在Linux平台上、支持多种编程语言等特性 Hadoop目前已经在各个领域得到了广泛的应用,雅虎、Facebook、百度、淘宝、网易等公司都建立了自己的Hadoop集群 经过多年发展,Hadoop项目已经变得非常成熟和完善,包括Common、Avro、Zookeeper、HDFS、MapReduce、HBase、Hive、Chukwa、Pig等子项目,其中,HDFS和MapReduce是Hadoop的两大核心组件 本章最后介绍了如何在Linux系统下完成Hadoop的安装和配置,这个部分是后续章节实践环节的基础 * * 2.3.1 Hadoop安装之前的预备知识 (二)系统安装方式:选择虚拟机安装还是双系统安装 建议电脑比较新或者配置内存4G以上的电脑可以选择虚拟机安装 电脑较旧或配置内存小于等于4G的电脑强烈建议选择双系统安装,否则,在配置较低的计算机上运行LInux虚拟机,系统运行速度会非常慢 鉴于目前教师和学生的计算机硬件配置一般不高,建议在实践教学中采用双系统安装,确保系统运行速度 2.3.1 Hadoop安装之前的预备知识 (三)关于Linux的一些基础知识 Shell 是指“提供使用者使用界面”的软件(命令解析器),类似于DOS下的command和后来的cmd.exe。它接收用户命令,然后调用相应的应用程序 sudo命令 sudo是ubuntu中一种权限管理机制,管理员可以授权给一些普通用户去执行一些需要root权限执行的操作。当使用sudo命令时,就需要输入您当前用户的密码 2.3.1 Hadoop安装之前的预备知识 输入密码 在Linux的终端中输入密码,终端是不会显示任何你当前输入的密码,也不会提示你已经输入了多少字符密码,读者不要误以为键盘没有响应 输入法中英文切换 linux中英文的切换方式是使用键盘“shift”键来切换,也可以点击顶部菜单的输入法按钮进行切换。Ubuntu自带的Sunpinyin中文输入法已经足够读者使用 Ubuntu终端复制粘贴快捷键 在Ubuntu终端窗口中,复制粘贴的快捷键需要加上 shift,即粘贴是 ctrl+shift+v 2.3.1 Hadoop安装之前的预备知识 (四)Hadoop安装方式 单机模式:Hadoop 默认模式为非分布式模式(本地模式),无需进行其他配置即可运行。非分布式即单 Java 进程,方便进行调试 伪分布式模式:Hadoop 可以在单节点上以伪分布式的方式运行,Hadoop 进程以分离的 Java 进程来运行,节点既作为 NameNode 也作为 DataNode,同时,读取的是 HDFS 中的文件 分布式模式:使用多个节点构成集群环境来运行Hadoop

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档