Hadoop权威指南---中文版.pdf

下载文档 降价啦

642
0
约9.21万字
约 77页
2019-03-04 发布于湖北
举报
版权申诉
保障服务

Hadoop权威指南---中文版.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

目录目录I 初识Hadoop 1 1.1 数据！数据1 1.2 数据的存储和分析3 1.3 相较于其他系统4 1.4 Hadoop 发展简史9 1.5 Apache Hadoop 项目12 MapReduce 简介15 2.1 一个气象数据 15 2.2 使用Unix Tools 来分析数据17 2.3 使用Hadoop 进行数据分析 19 2.4 分布化30 2.5 Hadoop 流35 2.6 Hadoop 管道40 Hadoop 分布式文件系统44 3.1 HDFS 的设计44 3.2 HDFS 的概念45 3.3 命令行接口48 3.4 Hadoop 文件系统50 3.5 Java 接口54 3.6 数据流68 3.7 通过distcp 进行并行复制75 3.8 Hadoop 归档文件77 Hadoop 的I/O 80 4.1 数据完整性80 4.2 压缩83 4.3 序列化92 4.4 基于文件的数据结构111 MapReduce 应用开发125 5.1 API 的配置126 5.2 配置开发环境128 5.3 编写单元测试134 5.4 本地运行测试数据138 5.5 在集群上运行144 5.6 作业调优159 5.7 MapReduce 的工作流162 MapReduce 的工作原理166 6.1 运行MapReduce 作业166 6.2 失败172 6.3 作业的调度174 6.4 shuffle 和排序175 6.6 任务的执行181 MapReduce 的类型与格式188 7.1 MapReduce 类型 188 7.3 输出格式217 MapReduce 特性227 8.1 计数器227 8.2 排序235 8.3 联接252 8.4 次要数据的分布258 8.5 MapReduce 的类库263 Hadoop 集群的安装264 9.1 集群说明264 9.2 集群的建立和安装268 9.3 SSH 配置270 9.4 Hadoop 配置271 9.5 安装之后286 9.6 Hadoop 集群基准测试286 9.7 云计算中的Hadoop 290 Hadoop 的管理293 10.1 HDFS 293 10.2 监控306 10.3 维护313 Pig 简介321 11.1 安装和运行Pig 322 11.2 实例325 11.3 与数据库比较329 11.4 Pig Latin 330 11.5 用户定义函数343 11.6 数据处理操作符353 11.7 Pig 实践提示与技巧363 Hbase 简介366 12.1 HBase 基础366 12.2 概念367 12.3 安装371 12.4 客户端374 12.5 示例377 12.6 HBase 与RDBMS 的比较385 12.7 实践390 ZooKeeper 简介394 13.1 ZooKeeper 的安装和运行395 13.2 范例396 13.3 ZooKeeper 服务405 13.4 使用ZooKeeper 建立应用程序417 13.5 工业界中的ZooKeeper 428 案例研究431 14.1 Hadoop 在Last.fm 的应用431 14.2 Hadoop 和Hive 在Facebook 的应用441 14.3 Hadoop 在Nutch 搜索引擎451 14.4 Hadoop 用于Rackspace 的日志处理466 14.5 Cascading 项目474 14.6 Apache Hadoop 的1 TB 排序488 Apache Hadoop 的安装491 Cloudera 的Hadoop 分发包497 预备NCDC 气象资料502 第1 章初识Hadoop 古时候，人们用牛来拉重物，当一头牛拉不动一根圆木的时候，他们不曾想过培育个头更大的牛。同样，我们也不需要尝试更大的计算机，而是应该开发更多的计算系统。 --格蕾斯·霍珀 1.1 数据！数据我们生活在数据时代！很难估计全球存储