网站大量收购独家精品文档,联系QQ:2885784924

1_课程一:运用Hadoop开源技术推动大数据落地.ppt

1_课程一:运用Hadoop开源技术推动大数据落地.ppt

  1. 1、本文档共78页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
社区Hadoop技术 电子出版物 天猫/淘宝 双十一191亿背后的开源技术? 思考-云计算技术有两极 Hadoop解决了什么难题? 思考-数据分析系统的基本指标 思考-数据分析系统的基本指标 大规模批量服务(服务 1.0) 大规模个性化服务(服务 2.0) 本质:智能组织-智能群体 思考-数据分析系统的基本指标 反馈决策周期!快 反馈决策粒度! 细 反馈决策准确性! 准 反馈总体成本! 廉价 Hadoop 前的数据仓库流程 Hadoop后的数据仓库流程 那些用户需要Hadoop (合)技术? 案例解析 User Case 1 (网页游戏) 国内网页游戏厂商 百个服/网页游戏,30-50个库/服 10G用户数据/天/游戏 [十几款游戏] 场景: 游戏玩家行为分析 User Case 2(智慧交通) 用户:最大城市,交通领域(City traffic) 场景:车牌记录[Car Licence Plate],100亿[10 Billion]/年 需求:小时级别-优化到分钟级[Minute] -未来优化到秒级[Seconds]查询 场景: 车辆异常快速识别 Hadoop技术 其他应用领域 电信 医疗 交通 公安 基于hadoop的数据平台总体架构 Python 结合 Hadoop Streaming 原理解析 MapReduce基本流程 基于Python MapReduce Streaming 快速并行编程 一、单机测试 head test.log | python map.py | python red.py 一、将文件上传到集群 /bin/hadoop fs -copyFromLocal test.log /hdfs/ 三、运行map red /bin/hadoop jar contrib/streaming/hadoop-streaming-.jar -file /path/map.py -file /path/red.py -mapper map.py -reducer red.py -input /path/test.log -output /path/ 通过界面查看任务状态 Python快速构建 数据分析模块 ComETL ComEtl配置样例 Pig内嵌JPython 实现PageRank算法 JPython+pig 代码实现演示 其他Python MapReduce框架 Pydoop - Python API for Hadoop MapReduce and HDFS /docs/ Happy - /p/happy/ datafu -Pig算法库 linkedin /linkedin/datafu 总空间150T以上, 每日新增数据0.5T 20+ 服务器的Hadoop/hive计算平台 单个任务优化从 7个小时到 1个小时 每日 Hive 查询 1200+ 每天处理3000+作业任务 每天处理10T+数据 HAProxy+Hive 网络拓扑 HAProxy+Hive高可用集群 数据平台 技术路线发展 Python Hadoop最佳实践 通过Tornado Nginx 接受日志 通过Scribe 同步数据 使用Python 编写加载和清洗脚本 使用ComEtl 通过Hive做ETL 参考HappyEtl,Pydoop编写Python Streaming 使用CronHub 做定时调度 使用phpHiveAdmin 提供自助查询 使用 Mysql 存储中间结果 通过Tornado+highcharts/gnuplot 提供报表展现 使用 Python + Nagios Cacti Ganglia 监控集群 整体构建在 Hadoop+Hive+pig 基础平台之上。 参加EasyHadoop 聚会学习 使用EasyHadoop管理集群 Hadoop JAVA 数据最佳实践 通过 Nginx+ tomcat 接受日志 通过 Scribe,Flume-Ng同步数据 使用Jython编写加载和清洗脚本 使用Sqoop,DataX通过Hive做ETL 参考Java MapReduce API编写程序 使用CronHub 做定时调度 使用phpHiveAdmin+hive+haproxy 提供自助查询 使用 Mysql/Oracle存储中间结果 通过Spring+struts+highcharts/gnuplot/JFreeChart 提供报表展现 使用 Python + Nagios Cacti Ganglia 监控集群 整体构建在 Hadoop+Hive+Pig 基础平台之上。 参加EasyHadoop 聚会学习 使用Cloudera

文档评论(0)

糖糖 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档