- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop数据分析平台 第1周
2012.8.17
DATAGURU专业数据分析网站
课程目标
能独立熟练完成Hadoop的安装及熟悉Hadoop的配置与管理
熟练地在Hadoop和操作系统以及关系型数据库之前传递数据
能独立制定数据集成方案
熟练地向Hadoop提交作业以及查询作业运行情况
了解Map-Reduce原理,能书写Map-Reduce程序
了解HDFS原理,能熟练地对HDFS中的文件进行管理
能独立完成pig的安装并且利用pig做简单的数据分析工作
能独立完成Hbase的安装和配置
了解Hbase的原理并能进行简单的shell操作
能独立完成Hive的安装和配置
了解Hive的原理及进行HiveQL操作
2012.8.17
DATAGURU专业数据分析网站 2
一个典型的实验环境
服务器:ESXi ,可以在上面部署10多台虚拟机,能同时启动4台
PC :要求linux环境或windows+Cygwin ,linux可以是standalone或者使用虚拟机
SSH :windows下可以使用SecureCRT或putty等ssh client程序,作用是用来远程连
接linux服务器,linux下可以直接使用ssh命令
Vmware client :用于管理ESXi
Hadoop :使用0.20.2
2012.8.17
DATAGURU专业数据分析网站 3
Hadoop的思想之源:Google
Google搜索引擎,Gmail ,安卓,AppspotGoogle Maps ,Google earth ,Google
学术,Google翻译,Google+ ,下一步Google what ??
2012.8.17
DATAGURU专业数据分析网站 4
Google的低成本之道
不使用超级计算机,不使用存储(淘宝的去i ,去e ,去o之路)
大量使用普通的pc服务器(去掉机箱,外设,硬盘),提供有冗余的集群服务
全世界多个数据中心,有些附带发电厂
运营商向Google倒付费
2012.8.17
DATAGURU专业数据分析网站 5
集装箱数据中心
位于 Mountain View ,Calif 总部的数据中心
总功率为10000千瓦,拥有45个集装箱,每个集装箱中有1160台服务器,该数据中心
的能效比为1.25 (PUE 为 1 表示数据中心没有能源损耗,而根据2006年的统计,一
般公司数据中心的能效比为 2.0 或更高。Google 的 1.16 已经低于美国能源部2011年
的1.2 的目标)
2012.8.17
DATAGURU专业数据分析网站 6
Google面对的数据和计算难题
大量的网页怎么存储?
搜索算法
Rank计算问题
2012.8.17
DATAGURU专业数据分析网站 7
倒排索引
2012.8.17
文档评论(0)