客户端工作汇报1220-流量掌厅中心.PPT

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
客户端工作汇报1220-流量掌厅中心

永远都不要怀疑自己的能力,能力这种东西,你努力了就有,不努力就肯定没有 hadoop入门介绍 苏州瑞翼信息技术有限公司 朱健 1.hadoop why? 1.数据非结构化+半结构化,传统数据库无法处理。 2.数据量大,传统关系型数据库无法承载。数据库更新小部分数据,B-tree效率高。但是大量数据时,效率低。需要sort/merge来重建数据库。 一个趋势:寻址时间(磁盘慢的原因)的提高远远慢于传输速率(带宽)的提高。流式读取主要取决于传输速率。 1.hadoop why? 传统数据库 MapReduce 数据大小 GB PB 访问 交互式、批处理 批处理 更新 多次读写 一次写入多次读写 结构 静态模式 动态模式 完整性 高 低 横向扩展(scaling out) 非线性 线性!!! 2.hadoop版本变迁史 2.hadoop版本变迁史 3.一个简单的批处理分层架构(hadoop 1.x) runtime (linux,jvm) 基础设施(hdfs,job,zk) 基础平台层(scheduler,hbase,hive) 用户网关层 客户应用层(行为分析,账单,清结算等等) 4.hadoop生态圈 5.基础组件 Hadoop Common: The common utilities that support the other Hadoop modules. Hadoop Distributed File System (HDFS?): A distributed file system that provides high-throughput access to application data. Hadoop YARN: A framework for job scheduling and cluster resource management. Hadoop MapReduce: A YARN-based system for parallel processing of large data sets. 6.HDFS 7.YARN 7.YARN ResourceManager(RM):主要接收客户端任务请求,接收和监控NodeManager(NM)的资源情况汇报,负责资源的分配与调度,启动和监控ApplicationMaster(AM)。 NodeManager:主要是节点上的资源管理,启动Container运行task计算,上报资源、container情况给RM和任务处理情况给AM。 ApplicationMaster:主要是单个Application(Job)的task管理和调度,向RM进行资源的申请,向NM发出launch Container指令,接收NM的task处理状态信息。 永远都不要怀疑自己的能力,能力这种东西,你努力了就有,不努力就肯定没有

文档评论(0)

2105194781 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档