大数据处理架构Hadoop.ppt

下载文档

101
0
约1.02万字
约 45页
2019-08-04 发布于广西
举报
版权申诉
保障服务

大数据处理架构Hadoop.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

伪分布式安装配置 Hadoop 可以在单节点上以伪分布式的方式运行，Hadoop 进程以分离的 Java 进程来运行，节点既作为 NameNode 也作为 DataNode，同时，读取的是 HDFS 中的文件 Hadoop 的配置文件位于 /usr/local/hadoop/etc/hadoop/ 中，伪分布式需要修改2个配置文件?core-site.xml?和?hdfs-site.xml? Hadoop的配置文件是 xml 格式，每个配置以声明 property 的 name 和 value 的方式来实现伪分布式安装配置实验步骤：修改配置文件：core-site.xml，hdfs-site.xml，mapred-site.xml 初始化文件系统hadoop namenode -format 启动所有进程start-all.sh 访问web界面，查看Hadoop信息运行实例伪分布式安装配置修改配置文件?core-site.xml? configuration property namehadoop.tmp.dir/name valuefile:/usr/local/hadoop/tmp/value descriptionAbase for other temporary directories./description /property property namefs.defaultFS/name valuehdfs://localhost:9000/value /property /configuration name为fs.defaultFS的值，表示hdfs路径的逻辑名称 hadoop.tmp.dir表示存放临时数据的目录，即包括NameNode的数据，也包括DataNode的数据。该路径任意指定，只要实际存在该文件夹即可? 伪分布式安装配置修改配置文件?hdfs-site.xml configuration property namedfs.replication/name value1/value /property property name.dir/name valuefile:/usr/local/hadoop/tmp/dfs/name/value /property property namedfs.datanode.data.dir/name valuefile:/usr/local/hadoop/tmp/dfs/data/value /property/configuration dfs.replication表示副本的数量，伪分布式要设置为1 .dir表示本地磁盘目录，是存储fsimage文件的地方 dfs.datanode.data.dir表示本地磁盘目录，HDFS数据存放block的地方伪分布式安装配置关于三种Shell命令方式的区别： 1. hadoop fs hadoop dfs 3. hdfs dfs hadoop fs适用于任何不同的文件系统，比如本地文件系统和HDFS文件系统 hadoop dfs只能适用于HDFS文件系统 hdfs dfs跟hadoop dfs的命令作用一样，也只能适用于HDFS文件系统 4.1 集群节点类型 4.2 集群规模 4.3 集群硬件配置 4.4 集群网络拓扑 4.5 集群的建立与安装 4.6 集群基准测试 4.7 在云计算环境中使用Hadoop 4 Hadoop集群的部署与使用 4.1 Hadoop集群中有哪些节点类型 Hadoop框架中最核心的设计是为海量数据提供存储的HDFS和对数据进行计算的MapReduce MapReduce的作业主要包括：（1）从磁盘或从网络读取数据，即IO密集工作；（2）计算数据，即CPU密集工作 Hadoop集群的整体性能取决于CPU、内存、网络以及存储之间的性能平衡。因此运营团队在选择机器配置时要针对不同的工作节点选择合适硬件类型一个基本的Hadoop集群中的节点主要有 NameNode：负责协调集群中的数据存储 DataNode：存储被拆分的数据块 JobTracker：协调数据计算任务 TaskTracker：负责执行由JobTracker指派的任务 SecondaryNameNode：帮助NameNode收集文件系统运行的状态信息 4.2 集群硬件配置在集群中，大部分的机器设备是作为Datanode和TaskTracker工作的Data

您可能关注的文档

文档评论（0）

benzei244572 + 关注: 实名认证

内容提供者

建筑工程师持证人

没啥好说的额

咨询Ta 进入空间

领域认证该用户于2024年10月16日上传了建筑工程师

1亿VIP精品文档

更多 >

大数据处理架构Hadoop.ppt