- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
社区Hadoop技术 电子出版物 天猫/淘宝 双十一191亿背后的开源技术? 思考-云计算技术有两极 Hadoop解决了什么难题? 思考-数据分析系统的基本指标 思考-数据分析系统的基本指标 大规模批量服务(服务 1.0) 大规模个性化服务(服务 2.0) 本质:智能组织-智能群体 思考-数据分析系统的基本指标 反馈决策周期!快 反馈决策粒度! 细 反馈决策准确性! 准 反馈总体成本! 廉价 Hadoop 前的数据仓库流程 Hadoop后的数据仓库流程 那些用户需要Hadoop (合)技术?案例解析 User Case 1 (网页游戏) 国内网页游戏厂商 百个服/网页游戏,30-50个库/服 10G用户数据/天/游戏 [十几款游戏] 场景: 游戏玩家行为分析 User Case 2(智慧交通) 用户:最大城市,交通领域(City traffic) 场景:车牌记录[Car Licence Plate],100亿[10 Billion]/年 需求:小时级别-优化到分钟级[Minute] -未来优化到秒级[Seconds]查询 场景: 车辆异常快速识别 Hadoop技术 其他应用领域 电信 医疗 交通 公安 基于hadoop的数据平台总体架构 Python 结合 Hadoop Streaming 原理解析 MapReduce基本流程 基于Python MapReduce Streaming 快速并行编程 一、单机测试 head test.log | python map.py | python red.py 一、将文件上传到集群 /bin/hadoop fs -copyFromLocal test.log /hdfs/ 三、运行map red /bin/hadoop jar contrib/streaming/hadoop-streaming-.jar -file /path/map.py -file /path/red.py -mapper map.py -reducer red.py -input /path/test.log -output /path/ 通过界面查看任务状态 Python快速构建 数据分析模块 ComETL ComEtl配置样例 Pig内嵌JPython 实现PageRank算法 JPython+pig 代码实现演示 其他Python MapReduce框架 Pydoop - Python API for Hadoop MapReduce and HDFS /docs/ Happy - /p/happy/ datafu -Pig算法库 linkedin /linkedin/datafu 总空间150T以上, 每日新增数据0.5T 20+ 服务器的Hadoop/hive计算平台 单个任务优化从 7个小时到 1个小时 每日 Hive 查询 1200+ 每天处理3000+作业任务 每天处理10T+数据 HAProxy+Hive 网络拓扑 HAProxy+Hive高可用集群 数据平台 技术路线发展 Python Hadoop最佳实践 通过Tornado Nginx 接受日志 通过Scribe 同步数据 使用Python 编写加载和清洗脚本 使用ComEtl 通过Hive做ETL 参考HappyEtl,Pydoop编写Python Streaming 使用CronHub 做定时调度 使用phpHiveAdmin 提供自助查询 使用 Mysql 存储中间结果 通过Tornado+highcharts/gnuplot 提供报表展现 使用 Python + Nagios Cacti Ganglia 监控集群 整体构建在 Hadoop+Hive+pig 基础平台之上。 参加EasyHadoop 聚会学习 使用EasyHadoop管理集群 Hadoop JAVA 数据最佳实践 通过 Nginx+ tomcat 接受日志 通过 Scribe,Flume-Ng同步数据 使用Jython编写加载和清洗脚本 使用Sqoop,DataX通过Hive做ETL 参考Java MapReduce API编写程序 使用CronHub 做定时调度 使用phpHiveAdmin+hive+haproxy 提供自助查询 使用 Mysql/Oracle存储中间结果 通过Spring+struts+highcharts/gnuplot/JFreeChart 提供报表展现 使用 Python + Nagios Cacti Ganglia 监控集群 整体构建在 Hadoop+Hive+Pig 基础平台之上。 参加EasyHadoop 聚会学习 使用Cloudera
您可能关注的文档
- 【全国百强校】重庆南开中学2016届高三12月月考文科综合试题精要.doc
- 【人教版】八年级上册英语:Unit8Howdoyoumakeabananamilkshake试题及答案精要.doc
- 【练闯考】人教版九年级语文下册:第24课《诗经》两首课件精要.ppt
- 【人力资源部】2011年度工作总结及2012年工作计划(Word版)精要.doc
- 【名师一号】高中语文人教版必修5双基限时练9说“木叶”]精要.doc
- 【如何编制个人平衡计分卡】(员工).090323精要.ppt
- 【南方新高考】2015年高考地理(广东通用)一轮复习课件:第三章第一节冷热不均引起大气运动精要.ppt
- 【三维设计】2016届高三物理一轮复习(word版):第一章运动的描述匀变速直线运动精要.doc
- 【内训总结12】20140213和秋叶一起学QQ群内部第12次福利讲座精要.docx
- 【全程复习方略】2014-2015学年高中数学(人教A版选修2-2)练习:1.7.1定积分在几何中的应用课时作业]精要.doc
- 2026年浙江交通职业技术学院单招综合素质笔试模拟试题附答案详解.docx
- 2026年鄂尔多斯职业学院单招综合素质笔试备考试题附答案详解.docx
- 2026年扬州工业职业技术学院单招综合素质考试备考题库附答案详解.docx
- 2026年上海电力大学单招综合素质考试备考题库附答案详解.docx
- 2026年景德镇陶瓷职业技术学院单招综合素质笔试备考试题附答案详解.docx
- 2026年韶关学院单招综合素质笔试备考试题附答案详解.docx
- 2026年泉州海洋职业学院单招综合素质考试备考题库附答案详解.docx
- 2026年常州工程职业技术学院单招综合素质考试参考题库附答案详解.docx
- 2026年河北传媒学院单招职业技能考试参考题库附答案详解.docx
- 2026年青海卫生职业技术学院单招综合素质考试备考题库附答案详解.docx
原创力文档


文档评论(0)