hadoop综合实际案例.pdf

  1. 1、本文档共39页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
hadoop综合实际案例

Hadoop数据分析平台 第12周 2013.01.23 DATAGURU专业数据分析网站黄志洪 法律声明 【声明】本视频和幻灯片为炼数成金网络课程的教 学资料,所有资料只能在课程内使用,不得在课 程以外范围散播,违者将可能被追究法律和经济 责任。 课程详情访问炼数成金培训网站 2013.01.23 DATAGURU专业数据分析网站黄志洪 2 Hadoop集群在互联网企业的应用  京东商城  百度  阿里巴巴 2013.01.23 DATAGURU专业数据分析网站黄志洪 3 京东商城  源起:为POP商家进行日志分析服务 2013.01.23 DATAGURU专业数据分析网站黄志洪 4 瓶颈  性能瓶颈:采用Oracle RAC (2节点),IBM小型机,由 于数据量极大,无法满足时效要求  成本瓶颈:小型机再进行高配和节点扩展,价格太贵 2013.01.23 DATAGURU专业数据分析网站黄志洪 5 Hadoop集群作为解决方案  20多个节点的Hadoop集群  数据定时从收集服务器装载到Hadoop集群(周期为天级或小时级)  数据经过整理(预处理)后放进数据仓库系统,数据仓库是基于Hive架构的,使用 Hive的主要原因是技术人员基本都是基于Oracle数据库的技能,由于Hive支持SQL查 询,因而技能可以平稳过渡  数据仓库查询统计的结果会被导到hbase ,然后和应用进行连接,应用不与hive直接连 接的原因,是基于效率的考虑。导出数据到hbase由自行开发的一段C程序完成。  应用即portal通过API与hbase连接获取数据 2013.01.23 DATAGURU专业数据分析网站黄志洪 6 遇到的挑战  Hadoop集群比较顺利,反映Hadoop项目本身已经较有 成熟度。但由于Hadoop系统考虑用户权限较少,而对于 大规模公司,势必要实施多级权限控制。解决的方法是通 过修改源代码加上权限机制  Hbase极不稳定,反映在某些数据导入导出连接过程里会 丢失数据。判断为源代码bug ,通过修改源代码解决 2013.01.23 DATAGURU专业数据分析网站黄志洪 7 心得体会  总体来说,Hadoop项目很成功,现在整个EDW (企业数据仓库系统 )都基于Hadoop。集群已经发展到200节点。之前传闻的购买 Oracle Exadata实际是用于下单交易系统,并非Hadoop项目失败。  大型企业成功应用Hadoop ,必须有源代码级别修改的技术力量。普 通的程序员转型阅读修改Hadoop源代码并不困难。  HiveSQL和Oracle的SQL有一些差异,大约花一周时间阅读Apache 的Hive wiki基本能掌握 2013.01.23 DATAGURU专业数据分析网站黄志洪 8 部门结构

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档