- 1、本文档共31页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
MapReduce流程 这是一个统计单词数的流程,Hadoop 将输入数据切成若干个分片,并将每个split交给一个map task 处理,map任务生成简单的键值对,数据通过combine(合并key值,可选过程), shuffle(partion,sort,merge)将相同key值得数据合并,排序并通过key值分成若干个分片形成reduce的输入,并有reduce统计出结果,输出到文件。 Hadoop 发行版 三大主流 Hadoop厂商 我们的选择--Cloudera Cloudera生态圈提供:存储、监控、资源管理、 批处理、交互式SQL接口,交互式查询接口、元 数据管理以及机器学习等丰富的服务组件。 由于Hadoop深受客户欢迎,许多公司 都推出了各自版本的Hadoop, 在Hadoop生态系统中,规模最大、 知名度最高的公司则是Cloudera。 选择Cloudera的原因: 1、Cloudera在Hadoop厂商中规模最大、 知名度最高; 2、Cloudera社区活跃、文档教程丰富; 3、Cloudera提供丰富的组件,并提供完 善的集成封装、日志与监控,便于使用; 4、Cloudera一半以上的研发项目贡献于 Apache,并且是Hadoop很多项目的直接 参与人; 5、Cloudera提供免费版本,并且不限制 节点。 Cloudera Ecosystem Thank You Hadoop是开源,大数据解决方案行业标准 * * 正因为是分布式存储只要你存储到HDFS 就可以保证你的文件不丢失,如果你空间不够用可以通过加节点来扩展空间 * 优点:1.高容错性 (?数据自动保存多个副本 ?副本丢失后,自动恢复 ; 2.适合批处理 (?移动计算而非数据 ?数据位置暴露给计算框架 ;适合大数据处理 ?GB、TB、甚至PB级数据 ?百万规模以上的文件数量 ?10K+节点规模) 3.流式文件访问 (?一次性写入,多次读取 ?保证数据一致性 ) 4.可构建在廉价机器上 (?通过多副本提高可靠性 ?提供了容错和恢复机制 ) HDFS缺点 (不适合低延迟数据访问 ?比如毫秒级 ?低延迟与高吞吐率 ,两个指标只能满足其一,做权衡; 不适合小文件存取 ?占用NameNode大量内存 ?寻道时间超过读取时间 ;并发写入、文件随机修改 ?一个文件只能有一个写者 ?仅支持append 随着现在的硬盘价格下降,可以把视频监控、爬虫数据都存储在HDFS上 * NameNode是HDFS的元数据节点,管理文件系统的命名空间,它维护着这个文件系统树以及这个树内所有的文件和索引目录,命名空间镜像(目录,数据块到文件的映射)和编辑日志,同时也记录每个数据块的所在数据节点。 数据节点是文件系统的实际文件数据存储节点。它们提供定位块服务,并向元数据节点发送它们存储块的列表。 Hadoop解决单点故障问题主要是通过两种方式: 1、NFS文件共享 ( nfs方式是重量级的需要单独部署维护的,他作为namenode和standy namenode之间数据共享的存储, 缺点是如果active 那么node 或者standy namenode有一个和nfs之间发生网络故障,将会造成数据同步问题。) 2、QJM 方式 CLOUDERA提出 QJM方式解决了nfs面临的问题,active namenode和standy namenode 之间通过一组journalnode奇数来共享数据, active nn 把最近的edits文件写到2n+1个journalnode只有n+1个写入成功,然后standy nn 就开始读取,这种方式支持容错! * 如上图所示,HDFS也是按照Master和Slave的结构。分NameNode、SecondaryNameNode、DataNode这几个角色。 NameNode:是Master节点,是大领导。管理数据块映射;处理客户端的读写请求;配置副本策略;管理HDFS的名称空间; SecondaryNameNode:是一个小弟,分担大哥namenode的工作量;是NameNode的冷备份;合并fsimage和fsedits然后再发给namenode。 DataNode:Slave节点,奴隶,干活的。负责存储client发来的数据块block;执行数据块的读写操作。 热备份:b是a的热备份,如果a坏掉。那么b马上运行代替a的工作。 冷备份:b是a的冷备份,如果a坏掉。那么b不能马上代替a工作。但是b上存储a的一些信息,减少a坏掉之后的损失。 fsimage:元数据镜像文件(文件系统的目录树。) edits:元数据的操作日志(针对文件系统做的修
您可能关注的文档
- 专四分值分布解析.ppt
- 专升本英语完形填空解题技巧解析.ppt
- 专家解析水标准及水处理技术(图文解说)解析.ppt
- GSP认证申请书及GSP认证质量管理体系讲诉.docx
- 专家讲课幻灯3-CKD患者PTH达标范围解读解析.ppt
- Unity3D优化方案讲诉.docx
- 专柜谈判攻略解析.ppt
- 专科《工程材料》模拟题试卷解析.doc
- 专心必胜技解析.ppt
- 专利的挖掘与申报解析.ppt
- 剧本杀行业报告:内容创作规范与剧本市场拓展策略.docx
- 剧本杀行业区域市场区域文化特色与市场潜力分析报告.docx
- 剧本杀行业区域市场拓展实战案例研究.docx
- 剧本杀行业区域市场拓展路径与模式探索报告.docx
- 剧本杀行业区域市场竞争态势与品牌差异化策略研究报告.docx
- 剧本杀行业2025年西北区域市场市场细分领域竞争态势与品牌竞争策略分析研究报告.docx
- 剧本杀行业2025年西北市场拓展前景预测报告.docx
- 剧本杀行业2025年长沙市场发展潜力分析报告.docx
- 剧本杀行业2025年长三角市场竞争策略与布局分析.docx
- 医疗行业数据合规:2025年数据安全法实施后的合规监管挑战与应对.docx
文档评论(0)