网站大量收购独家精品文档,联系QQ:2885784924

hadoop大数据处理讲义-c4. hdfs.pdf

  1. 1、本文档共38页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
hadoop大数据处理讲义-c4. hdfs

海量数据处理中的云计算 C4. 海量数据的云存储与HDFS 北京邮电大学信息与通信工程学院 刘军 liujun@ 2014年春季学期 Show Time  完成: – 建立Windows下的单机Hadoop环境 – 运行WordCount程序  要求: – 所有同学在下周2中午12点前将安装过程及运行WordCount程序结果截图,整理成 文档,发送到:liujun@  邮件标题:海量数据处理作业(姓名)  文档名:海量数据处理作业_hadoop安装_姓名 – 现场演示Hadoop环境、开发环境和WordCount程序结果 第2页 答疑  大部分同学遇到的问题都是在安装、启动过程中遇到异常  解决方法: – 坚信天上飘过的那五个字! – 脑海中随时带着几个三明治(部署、层次) – 仔细查看Linux命令错误信息、Hadoop日志信息(logs目录下的*.log ,*.out ) – 忘掉度娘,只用谷哥,强迫自己习惯英文阅读 – 搞定! 第3页 本节目录  HDFS基础  深入HDFS  继续课程设计主题讨论 第4页 海量数据的云存储需求  待处理数据的量级 – 百度: 200PB – Facebook : 100PB – Yahoo : 100PB – 淘宝: 15PB – ebay : 10PB  分布式存储技术成为大数据时代存储海量数据的必然选择  要点: – 低成本:大量廉价PC构成的集群作为硬件基础,单节点故障率较高 – 大文件:大量大尺寸的文件( ≥100MB – GB级) – 读写特性:顺序读写,极少随机读写;写入后 ,一般不会再修改 – 目标:要求系统整体高吞吐量,而非低时延 第5页 HDFS The Hadoop Distributed File System (HDFS) is a distributed file system designed to run on commodity hardware. It has many similarities with existing distributed file systems. However, the differences from other distributed file systems are significant. HDFS is highly fault-tolerant and is designed to be deployed on low-cost hardware. HDFS provides high throughput access to application data and is suitable for applications that have large data sets. Source :/docs/r1.2.1/hdfs_design.html#Introduction 第6页 HDFS架构 第7页 HDFS系统架构(1 )-角色划分 By Maneesh Varshney, mvarshney@ (后同) 第8页 HDFS系统架构 (2 )-Client

文档评论(0)

maxmin + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档