Hadoop分布式文件系统架构和设计.pdfVIP

  • 2
  • 0
  • 约6.88千字
  • 约 6页
  • 2020-09-10 发布于天津
  • 举报
H a d o o p 分 布 式 文 件 系 统 : 架 构 和 设 计 引言 一 前提和设计目标 1 hadoop 和云计算的关系 2 流式数据访问 . 3 大规模数据集 . 4 简单的一致性模型 . 5 异构软硬件平台间的可移植性 6 硬件错误 . 二 HDFS 重要名词解释 1 Namenode 2 secondary Namenode 3 Datanode 4 jobTracker 5 TaskTracker 三 HDFS数据存储 1 HDFS数据存储特点 2 心跳机制 . 3 副本存放 . 4 副本选择 . 5 安全模式 . 四 HDFS数据健壮性 1 磁盘数据错误,心跳检测和重新复制 2 集群均衡 . 3 数据完整性 . 4 元数据磁盘错误 . 5 快照 . 引言 云计算( cloud computing) ,由位于网络上的一组服务器把其计算、存储、数据等资源以服务的 形式提供给请求者以完成信息处理任务的方法和过程。 在此过程中被服务者只是提供需求并获取服务结 果,对于需求被服务的过程并不知情。同时服务者以最优利用的方式动态地把资源分配给众多的服务请 求者,以求达到最大效益。 Hadoop 分布式文件系统 (HDFS) 被设计成适合运行在通用硬件 (commodity hardware) 上的分 布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别 也是很明显的。 HDFS 是一个高度容错性的系统,适合部署在廉价的机器上。 HDFS 能提供高吞吐量的 数据访问,非常适合大规模数据集上的应用。 一 前提和设计目标 1 hadoop 和云计算的关系 云计算由位于网络上的一组服务器把其计算、 存储、 数据等资源以服务的形式提供给请求者以完成 信息处理任务的方法和过程。针对海量文本数据处理 , 为实现快速文本处理响应 , 缩短海量数据为辅助决 策提供服务的时间 , 基于 Hadoop 云计算平台 , 建立 HDFS 分布式文件系统存储海量文本数据集 ,通过文 本词频利用 MapReduce 原理建立分布式索引 , 以分布式数据库 HBase 存储关键词索引 , 并提供实时检 索 ,实现对海量文本数据的分布式并行处理 . 实验结果表明 ,Hadoop 框架为大规模数据的分布式并行处 理提供了很好的解决方案。 2 流式数据访问 运行在 HDFS 上的应用和普通的应用不同,需要流式访问它们的数据集。 HDFS 的设计中更多的 考虑到了数据批处理,而不是用户交互处理。比之数据访问的低延迟问题,更关键的在于数据访问的高 吞吐量。 3 大规模数据集 运行在 HDFS 上的应用具有很大的数据集。 HDFS 上的一个典型文件

文档评论(0)

1亿VIP精品文档

相关文档