- 1、本文档共111页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第3章大数据存储技术
大数据项目组
2018年7月
华中科技大学软件学院
目录
理解HDFS分布式文件系统
NoSQL数据库
Hadoop地安装与配置
HDFS文件管理
Hbase地安装与配置
Hbase地使用
2
HDFS简介
分布式文件系统HDFS (Hadoop Distributed File System)是Hadoop
核心子项目,为Hadoop提供了一个综合性地文件系统抽象,并实现了
多类文件系统地接口。HDFS基于流式数据访问,存储与处理超大文件,
并运行于商用硬件服务器上。
HDFS文件系统地特点:
1.存储数据较大:运行在HDFS地应用程序有较大地数据处理要求,或存
储从GB到TB级地超大文件。
2.支持流式数据访问:HDFS 宽了可移植操作系统接口 (POSIX)地
要求,可以以流地形式访问文件系统中地数据。
3.支持多硬件平台:Hadoop可以运行在廉价,异构地商用硬件集群上,
并且在HDFS设计时充分考虑了数据地可靠性,安全性及高可用性,以
应对高发地节点故障问题。 3
HDFS简介
4.数据一致性高:应用程序采用一次写入,多次读取地数据访问策略,
支持追加,不支持多次修改,降低了造成数据不一致性地可能性。
5.有效预防硬件失效:通常,硬件异常比软件异常更加常见,对于具有上
百台服务器地数据中心而言,硬件异常是常态,HDFS地设计要有效预
防硬件异常,并具有自动恢复数据地能力。
6.支持移动计算:计算与存储采取就近地原则,从而降低网络负载,减少
网络拥塞。
4
HDFS地局限性
HDFS在处理一些特定问题上也存在着一定地局限性,并不适用所有情
况,主要表现在以下三个方面:
1.不适合低延迟地数据访问:因为HDFS是为了处理大型数据集任务,
主要针对高数据吞吐设计地,会产生高时间延迟代价。
2.无法高效地存储大量小文件:为了快速响应文件请求,元数据存储
在主节点地内存中,文件系统所能存储地文件总数受限于NameNode地
内存容量。小文件数量过大,容易造成内存不足,导致系统错误。
3.不支持多用户写入以及任意修改文件:在HDFS中,一个文件同时只
能被一个用户写入,而且写操作总是将数据添加在文件末尾,并不支
持多个用户对同一文件地写操作,也不支持在文件地任意位置进行修
改。
5
HDFS地体系结构
HDFS地存储策略是把大数据文件分块并存储在不同地计算机节点(Nodes),通过
NameNode管理文件分块存储信息(即文件地元信息)。下图给出了HDFS地体系结
构图。
HDFS采用了典型地Master/Slave
系统架构,一个HDFS集群通常包含
一个NameNode节点与若干个
DataNodes节点。一个文件被分成
了一个或者多个数据块,并存储在
一组DataNode上,DataNode节点可
分布在不同地机架。在NameNode
您可能关注的文档
- 大数据基础-Spark内存计算框架.pdf
- 大数据基础-大数据分析与挖掘技术.pdf
- 大数据基础-大数据技术概述.pdf
- 大数据基础-大数据技术基础.pdf
- 大数据基础-大数据软件基础.pdf
- 大数据基础-数据采集与预处理.pdf
- 大数据-NumPy数值计算.pptx
- 大数据导论-大数据与云计算.pptx
- 大数据基础-大数据技术概述.pptx
- 大数据基础-大数据技术基础.pptx
- 2025年网络文学平台版权运营模式创新与版权保护体系构建.docx
- 数字藏品市场运营策略洞察:2025年市场风险与应对策略分析.docx
- 全球新能源汽车产业政策法规与市场前景白皮书.docx
- 工业互联网平台安全标准制定:安全防护与合规性监管策略.docx
- 剧本杀剧本创作审核标准2025年优化与行业自律.docx
- 2025年新能源电动巡逻车在城市安防中的应用对城市环境的影响分析.docx
- 全渠道零售案例精选:2025年行业创新实践报告.docx
- 2025年网约车司乘纠纷处理机制优化与行业可持续发展报告.docx
- 2025年宠物烘焙食品市场法规政策解读:合规经营与风险规避.docx
- 2025年宠物行业数据安全监管政策影响分析报告.docx
文档评论(0)