- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
HDFS文件系统.pptxHDFS文件系统.pptx
HDFS,MapReduce和Common概论
1470825
王舒艺
Hadoop
HDFS,MapReduce和Common是Hadoop的核心模块,其中HDFS提供了海量数据的存储,MapReduce提供了对数据的计算,Common提供了一系列文件系统和通用I/O的文件包,这些文件包供HDFS,MapReduce及其他模块公用
一、HDFS的主要设计理念
1、存储超大文件
这里的“超大文件”是指几百MB、GB甚至TB级别的文件。
2、最高效的访问模式是 一次写入、多次读取
HDFS存储的数据集作为hadoop的分析对象。在数据集生成后,长时间在此数据集上进行各种分析。每次分析都将设计该数据集的大部分数据甚至全部数据,因此读取整个数据集的时间延迟比读取第一条记录的时间延迟更重要。
3、运行在普通廉价的服务器上
HDFS设计理念之一就是让它能运行在普通的硬件之上,即便硬件出现故障,也可以通过容错策略来保证数据的高可用。
二、HDFS基本概念
数据块(block):大文件会被分割成多个block进行存储,block大小默认为64MB。每一个block会在多个datanode上存储多份副本,默认是3份。
namenode:namenode负责管理文件目录、文件和block的对应关系以及block和datanode的对应关系。
datanode:datanode就负责存储了,当然大部分容错机制都是在datanode上实现的。
三、HDFS基本架构图
基于HDFS的云存储在高校信息资源整合中的应用
高校对于云存储系统是一个用户,而高校内部有多个部门,相对于云存储系统的用户高校来说是一个子用户。云存储系统能够创建、管理、维护高校云存储用户;高校云用户能够创建、管理、维护各部门子用户。而子用户才是真正的终端信息存储用户,他们上传、下载、删除数据信息。由于我们的这个系统是基于HDFS的,而一个基本的HDFS由一个NameNode和n个DataNode组成。可以将本文描述的分布式文件系统(DFS)抽象成一个三级模型
MapReduce数据流(data flow)
MapReduce的处理过程主要涉及以下四个部分:
客户端Client:用于提交Map-reduce任务job
JobTracker:协调整个job的运行,其为一个Java进程,其main class为JobTracker
TaskTracker:运行此job的task,处理input split,其为一个Java进程,其main class为TaskTracker
HDFS:hadoop分布式文件系统,用于在各个进程间共享Job相关的文件
MapReduce主要技术特征
1)向外横向扩展,而非向上纵向扩展
2)失效被认为是常态
3)把处理向数据迁移
4)顺序处理数据、避免随机访问数据
5)为应用开发者隐藏系统层细节
6)平滑无缝的可扩展性
MapReduce的应用
一个简单的统计每个字符数量
Common 结构学习
Hadoop Common在 Hadoop1.0 中是在 core 包下面的。此包下面的内容供 HDFS 和 MapReduce 公用,所以作用还是非常大的。 Hadoop Common 模块下的内容是比较多的。
程序包下的主要模块关系图
1. org.apache.hadoop.conf ,配置相关类
2. o rg.apache.hadoop. fs,Hadoop 文件系统
3. o rg.apache.hadoop. io,Hadoop I/O 系统
您可能关注的文档
最近下载
- 公司章程英文版 Company Articles of Association.doc VIP
- 英文版公司章程ARTICLES OF ASSOCIATION OF.docx VIP
- 从《倾城之恋》的白流苏透析张爱玲小说中的女性形象.docx
- 档案搬迁服务 投标方案.doc
- 日本 东要介--透析液纯净化.cn.pdf VIP
- mpr300电机保护器使用使用说明书.doc
- 2025年乡村振兴战略下县域经济产业链优化研究报告.docx VIP
- 胜利仪器VICTOR 240.240S.270.270S双通道系列示波器用户手册.pdf VIP
- 智能浇灌系统的策划书3篇.pdf VIP
- 新HSK3级词汇最新分析和总结.pdf VIP
文档评论(0)