- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop初级培训
自我介绍
于晶
化名:V(钒)
微信:yujingbeauty
微博:亚信联创大数据于晶
博客:/u/5094846193
BDX-BDP 大数据产品部 橘云平台中心
亚信联创科技(中国)有限公司
自我介绍
2010-11~2012-06 加入亚信实习,参与广电CRM产品单元测试和实施
2012-07~2012-10 接触hadoop,参与上海云详单项目测试与实施
2012-10~2013-04 从事广电CRM开发工作
2013-04~至今 从事hbase有关onosql产品的测试和实施工作
大家互相认识
Background Interest Name
数手指选出桌长
绘制一副图展示本桌特质
桌长介绍自己和本桌图形
10分钟
10分钟
培训对象
对Hadoop感兴趣的技术人员
大数据相关项目的测试人员
大数据相关项目的运维管理人员
大数据相关项目的售前支持人员等.
培训安排
上午:9:30~12:00
下午:1:30~5:30
简介
Hadoop解决的问题
Hadoop安装
HDFS及基本操作
MapReduce介绍
Hadoop任务调度
Hadoop生态系统
第一章 简介
课程介绍
简介
Hadoop解决的问题
Hadoop安装
HDFS及基本操作
MapReduce
Hadoop任务调度
Hadoop生态系统概述
第二章Hadoop解决的问题
课程章节
简介
Hadoop解决的问题
Hadoop安装
HDFS及基本操作
MapReduce
Hadoop任务调度
Hadoop生态系统概述
Why Hadoop?
Hadoop简史
Hadoop核心组件
Hadoop基本概念
总结
Hadoop 解决的问题
Why Hadoop?
我们处在一个海量数据的时代
我们正产生着比以往任何时候都多的数据
- 金融交易数据
- 网络数据
- 服务器日志
- 分析数据
- 电子邮件和短信
- 各类多媒体数据
我们处在一个海量数据的时代
我们产生数据的速度比以往任何时候都快
- 各类自动化数据
- 无处不在的互联网
- 用户自发生成的内容
例如,每天
- Twitter 处理3.4亿条信息
- Amazon S3存储增加超过十亿个对象
- Facebook有27亿条评论
数据就是价值
这些数据可用于许多有价值的应用
- 营销分析
- 产品推荐
- 需求预测
- 欺诈检测
- 更多、更多
我们必须处理它以提取其价值
数据处理的可扩展性受限
我们如何处理所有这些信息
有两个问题需要面对
-大数据的存储
-大数据的分析
磁盘容量和价格都是有利因素
我们正产生比以往更多的数据
幸运的是,磁盘的容量相应上升而存储成本也相应下降
Year
Capacity(GB)
Cost per GB(USD)
1997
2.1
$157
2004
200
$1.05
2012
3,000
$0.05
磁盘容量对应的传输性能提升有限
在过去的15年磁盘性能也增加了
但不幸的是,磁盘性能的提高远不能和容量的提高保持一致
Year
Capacity(GB)
Transfer Rate(MB/s)
Disk Read Time
1997
2.1
16.6
126 seconds
2004
200
56.5
59 minutes
2012
3,000
210
3 hours,58 minutes
数据访问存在瓶颈
虽然我们可以更快地处理数据,但是数据访问还是相对缓慢的
例如,遍历一个3TB磁盘需要近4小时
- 我们在读完数据之前没法处理他们
- 我们被单磁盘的速度所限制
后面我们将看到Hadoop的解决方案
- 但首先我们来看传统上我们是怎样处理大数据的
整体式计算扩展性受限
传统上,数据处理是与处理器绑定的
- 少量数据的强大处理能力
几十年来,我们的目标是一个更大、更强的机器
- 更快的处理器、更多的内存
这种方法的局限性
- 高成本
- 有限的可伸缩性
面对这种现状我们应该怎么办
“In pioneer days they used oxen for heavy pulling, and when one ox couldnt budge a log, they didnt try to grow a larger ox. We shouldnt be trying for bigger computers, but for more systems of co
文档评论(0)