- 2
- 0
- 约6.88千字
- 约 6页
- 2020-09-10 发布于天津
- 举报
H a d o o p 分 布 式 文 件 系 统 : 架 构 和 设 计
引言
一 前提和设计目标
1 hadoop 和云计算的关系
2 流式数据访问 .
3 大规模数据集 .
4 简单的一致性模型 .
5 异构软硬件平台间的可移植性
6 硬件错误 .
二 HDFS 重要名词解释
1 Namenode
2 secondary Namenode
3 Datanode
4 jobTracker
5 TaskTracker
三 HDFS数据存储
1 HDFS数据存储特点
2 心跳机制 .
3 副本存放 .
4 副本选择 .
5 安全模式 .
四 HDFS数据健壮性
1 磁盘数据错误,心跳检测和重新复制
2 集群均衡 .
3 数据完整性 .
4 元数据磁盘错误 .
5 快照 .
引言
云计算( cloud computing) ,由位于网络上的一组服务器把其计算、存储、数据等资源以服务的
形式提供给请求者以完成信息处理任务的方法和过程。 在此过程中被服务者只是提供需求并获取服务结
果,对于需求被服务的过程并不知情。同时服务者以最优利用的方式动态地把资源分配给众多的服务请
求者,以求达到最大效益。
Hadoop 分布式文件系统 (HDFS) 被设计成适合运行在通用硬件 (commodity hardware) 上的分
布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别
也是很明显的。 HDFS 是一个高度容错性的系统,适合部署在廉价的机器上。 HDFS 能提供高吞吐量的
数据访问,非常适合大规模数据集上的应用。
一 前提和设计目标
1 hadoop 和云计算的关系
云计算由位于网络上的一组服务器把其计算、 存储、 数据等资源以服务的形式提供给请求者以完成
信息处理任务的方法和过程。针对海量文本数据处理 , 为实现快速文本处理响应 , 缩短海量数据为辅助决
策提供服务的时间 , 基于 Hadoop 云计算平台 , 建立 HDFS 分布式文件系统存储海量文本数据集 ,通过文
本词频利用 MapReduce 原理建立分布式索引 , 以分布式数据库 HBase 存储关键词索引 , 并提供实时检
索 ,实现对海量文本数据的分布式并行处理 . 实验结果表明 ,Hadoop 框架为大规模数据的分布式并行处
理提供了很好的解决方案。
2 流式数据访问
运行在 HDFS 上的应用和普通的应用不同,需要流式访问它们的数据集。 HDFS 的设计中更多的
考虑到了数据批处理,而不是用户交互处理。比之数据访问的低延迟问题,更关键的在于数据访问的高
吞吐量。
3 大规模数据集
运行在 HDFS 上的应用具有很大的数据集。 HDFS 上的一个典型文件
您可能关注的文档
- 2016——2017学年《旅游心理学》期末试题.pdf
- 2016中级管道工内部复习题.pdf
- 2016中职公共音乐教学教学反思.pdf
- 2016关于散学典礼校长讲话稿.pdf
- 2016创建国家公共文化服务体系示范区有奖知识竞赛试题.pdf
- 2016年中级技工考核试题及答案.pdf
- 2016年企业安全生产月考试试题及答案.pdf
- 2016年医务人员手卫生培训试卷.pdf
- 2016年新疆继续教育公需课锤炼优秀管理人员的最佳方法——职业生涯开发与管理.pdf
- 2016年计算机二级office模拟试卷.pdf
- 安徽省华师联盟2025-2026学年高三上学期1月质量检测生物试卷+答案.doc
- 安徽省华师联盟2025-2026学年高三上学期1月质量检测语文试卷+答案.doc
- 四川省绵阳南山中学实验学校2025-2026学年高三上学期1月月考数学含答案.doc
- 2026届辽宁省大连市高三上学期双基考试物理试卷+答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测化学含答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测生物含答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测英语含答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测政治含答案.doc
- 黑龙江省龙江教育联盟2026年1月高三上学期期末考试化学含答案.doc
- 黑龙江省龙江教育联盟2026年1月高三上学期期末考试生物含答案.doc
原创力文档

文档评论(0)