- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop大数据分析平台培训-傅一航
内蒙古移动Hadoop大数据分析平台讲师:傅一航QQ:25096262862015年10月纽约证交所每天产生的交易数据达1TB。一个网站请求数为1kw/天,每天日志大小为450Byte/行*1kw=4.2G,存储周期为2年,则需要4.2G*2*365=3TB空间。FaceBook网站每周会传约10亿张60TB照片,每年需要超过1PB的空间来存储4000亿张照片。一个城市有上万个道路监控探头,平均每个探头每3秒拍一张照片(大约2M),并产生车牌、颜色、速度、方向等信息,这样每天将产生高达60TB的数据。谷歌每天处理超过20PB的数据。日内瓦的大型强子对撞机每个产生15PB数据。数据摩尔定律:大约每18个月数据规模还要翻倍。数据大爆炸1TB=103GB1PB=106GB=2^50字节1EB=109GB=2^60字节1ZB=1012GB=2^70字节数据大爆炸如何存储?如何处理?大容量Volume多样性Variety价值Value速度Velocity大数据的4V特征大数据带来的问题Hadoop!!!横空出世!Hadoop生态系统PaaS平台即服务(如GoogleAppEngine)SaaS软件即服务(如GoogleDocs)IaaS基础设施即服务(如AmazonEC2/S3)云计算的三大服务模式动态调度自动部署Hadoop与云计算HadoopHadoop是一个软件框架,为大数据储存和处理提供一整套成熟可靠的解决方案大数据Hadoop与云计算管理云计算Hadoop是云计算的技术实现(PaaS)Hadoop成为大数据平台的事实标准!Sqoop(数据交换)Flume(日志收集)HBase(数据库)Pig(数据流处理)Hive(数据仓库)Mahout(算法库)Chukwa(数据收集)Hadoop的框架数据块存储,分布存储在大量节点上逻辑上支持GB/TB级的单个文件相对低时延,更关注数据的高吞吐率Write-one-read-many一次写多次读简化文件一致性模型可以部署在廉价的硬件之上错误检测和快速自动地恢复是HDFS的核心目标高并发访问能力强大的容错能力HDFS的设计目标支持超大文件及大规模数据存储能力新节点可不断增加,容量可不断提升高扩展性HDFS不适合的场景:1、低延时数据访问。2、大量的小文件。3、多用户写入/修改文件。HDFS(HadoopDistributedFileSystem)基本模型:主从模式Master/Slaves/ClientHDFS物理部署元数据(Meta-data):文件与数据块的索引块与DN节点的映射元数据大小元数据在内存块中约占150字节,相当于16GB的内存,可以放480万个文件。元数据位置保存在.dir指定的位置VERSION:当前HDFS的版本信息FsImage:系统的空间镜像文件Edit:EditLog编辑日志Fstime:上一次检查的时间Previous.checkpoint:上次检查的内容NameNode/元数据存储目录dfs.data.dir心跳周期(s)ervalDataNode数据节点数据校验和机制(Checksum)SNN充当NN的副本,周期性地保存、合并NN中的元数据。并以记录时间戳。DN同时保存块数据和校验和数据,校验和位数:io.bytes.per.checksum如果读取数据时发现校验和错误,则会重新从另一个副本读取,并且NN会指示重新复制并恢复副本。Checkpoint(元数据合并)数据一致性设计数据节点DNDN有一个DataBlockScanner线程,负责周期性地验证本节点的所有数据块的完整性(默认三周扫描一次)。如果发现数据校验错误,则上报NN结点,由NN结点指示数据删除和复制操作。DN周期性(默认3s)地向NN发送心跳包。如果检测到DN失效,那么NN将会重新创建数据副本,复制到其它可用的节点上。当失效的DN重启后,原数据块会因为版本不对而被清除。HDFS支持租约机制,防止多个进程向同一个文件写数据NN只会向一个客户端发放租约,确保一个文件只有一个写用户在写文件前,客户端需要向NN申请租约,租约到期前需要更新租约NN启动时会进入安全模式(不允许任何文件操作)NN会读取FsImage和EditLog,合并成新的FsImage动态创建块与节点的映射关系:等待DN结点上报块与节点的映射关系,直到所有块映射满足指定比例(默认99.9%)才退出安全模式安全模式租约机制心跳检测HearBeats可靠性设计HDFS文件读取过程HDFS文件写入过程写入数据时允许某个DN失败,但总的成功节点数要不小于dfs.replication.min数。第二层:简化的编程模型(数据处理引擎)MapTask:负责把任务分解给多个节点分别处理ReduceTask:负责把多个处理结果进行整合第三层:集中的任
文档评论(0)