Hadoop分布式文件系统架构和设计.pdfVIP

下载本文档

2
0
约6.88千字
约 6页
2020-09-10 发布于天津
举报

Hadoop分布式文件系统架构和设计.pdf

H a d o o p 分布式文件系统：架构和设计引言一前提和设计目标 1 hadoop 和云计算的关系 2 流式数据访问 . 3 大规模数据集 . 4 简单的一致性模型 . 5 异构软硬件平台间的可移植性 6 硬件错误 . 二 HDFS 重要名词解释 1 Namenode 2 secondary Namenode 3 Datanode 4 jobTracker 5 TaskTracker 三 HDFS数据存储 1 HDFS数据存储特点 2 心跳机制 . 3 副本存放 . 4 副本选择 . 5 安全模式 . 四 HDFS数据健壮性 1 磁盘数据错误，心跳检测和重新复制 2 集群均衡 . 3 数据完整性 . 4 元数据磁盘错误 . 5 快照 . 引言云计算（ cloud computing) ，由位于网络上的一组服务器把其计算、存储、数据等资源以服务的形式提供给请求者以完成信息处理任务的方法和过程。在此过程中被服务者只是提供需求并获取服务结果，对于需求被服务的过程并不知情。同时服务者以最优利用的方式动态地把资源分配给众多的服务请求者，以求达到最大效益。 Hadoop 分布式文件系统 (HDFS) 被设计成适合运行在通用硬件 (commodity hardware) 上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。 HDFS 是一个高度容错性的系统，适合部署在廉价的机器上。 HDFS 能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。一前提和设计目标 1 hadoop 和云计算的关系云计算由位于网络上的一组服务器把其计算、存储、数据等资源以服务的形式提供给请求者以完成信息处理任务的方法和过程。针对海量文本数据处理 , 为实现快速文本处理响应 , 缩短海量数据为辅助决策提供服务的时间 , 基于 Hadoop 云计算平台 , 建立 HDFS 分布式文件系统存储海量文本数据集 ,通过文本词频利用 MapReduce 原理建立分布式索引 , 以分布式数据库 HBase 存储关键词索引 , 并提供实时检索 ,实现对海量文本数据的分布式并行处理 . 实验结果表明 ,Hadoop 框架为大规模数据的分布式并行处理提供了很好的解决方案。 2 流式数据访问运行在 HDFS 上的应用和普通的应用不同，需要流式访问它们的数据集。 HDFS 的设计中更多的考虑到了数据批处理，而不是用户交互处理。比之数据访问的低延迟问题，更关键的在于数据访问的高吞吐量。 3 大规模数据集运行在 HDFS 上的应用具有很大的数据集。 HDFS 上的一个典型文件

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

Hadoop分布式文件系统架构和设计.pdfVIP