- 1、本文档共39页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
hadoop综合实际案例
Hadoop数据分析平台 第12周
2013.01.23
DATAGURU专业数据分析网站黄志洪
法律声明
【声明】本视频和幻灯片为炼数成金网络课程的教
学资料,所有资料只能在课程内使用,不得在课
程以外范围散播,违者将可能被追究法律和经济
责任。
课程详情访问炼数成金培训网站
2013.01.23
DATAGURU专业数据分析网站黄志洪 2
Hadoop集群在互联网企业的应用
京东商城
百度
阿里巴巴
2013.01.23
DATAGURU专业数据分析网站黄志洪 3
京东商城
源起:为POP商家进行日志分析服务
2013.01.23
DATAGURU专业数据分析网站黄志洪 4
瓶颈
性能瓶颈:采用Oracle RAC (2节点),IBM小型机,由
于数据量极大,无法满足时效要求
成本瓶颈:小型机再进行高配和节点扩展,价格太贵
2013.01.23
DATAGURU专业数据分析网站黄志洪 5
Hadoop集群作为解决方案
20多个节点的Hadoop集群
数据定时从收集服务器装载到Hadoop集群(周期为天级或小时级)
数据经过整理(预处理)后放进数据仓库系统,数据仓库是基于Hive架构的,使用
Hive的主要原因是技术人员基本都是基于Oracle数据库的技能,由于Hive支持SQL查
询,因而技能可以平稳过渡
数据仓库查询统计的结果会被导到hbase ,然后和应用进行连接,应用不与hive直接连
接的原因,是基于效率的考虑。导出数据到hbase由自行开发的一段C程序完成。
应用即portal通过API与hbase连接获取数据
2013.01.23
DATAGURU专业数据分析网站黄志洪 6
遇到的挑战
Hadoop集群比较顺利,反映Hadoop项目本身已经较有
成熟度。但由于Hadoop系统考虑用户权限较少,而对于
大规模公司,势必要实施多级权限控制。解决的方法是通
过修改源代码加上权限机制
Hbase极不稳定,反映在某些数据导入导出连接过程里会
丢失数据。判断为源代码bug ,通过修改源代码解决
2013.01.23
DATAGURU专业数据分析网站黄志洪 7
心得体会
总体来说,Hadoop项目很成功,现在整个EDW (企业数据仓库系统
)都基于Hadoop。集群已经发展到200节点。之前传闻的购买
Oracle Exadata实际是用于下单交易系统,并非Hadoop项目失败。
大型企业成功应用Hadoop ,必须有源代码级别修改的技术力量。普
通的程序员转型阅读修改Hadoop源代码并不困难。
HiveSQL和Oracle的SQL有一些差异,大约花一周时间阅读Apache
的Hive wiki基本能掌握
2013.01.23
DATAGURU专业数据分析网站黄志洪 8
部门结构
文档评论(0)