- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
从零开始搭建大数据平台
摘要
屌丝的数据分析
土豪要和屌丝做朋友
屌丝的进化
屌丝变土豪
构建电视分析数据平台
本案例是在为在为超级电视及乐视盒子数据提供用户行为的数据分析及挖掘服务而启动的数据平台项目的过程和经验分享。
对超级电视的用户行为数据进行实时和离线分析,为运营提供决策支持。
通过对电视数据挖掘来进行系统优化和服务提升。
白德鑫
来自乐视网TV开放平台事业部
历经电信、游戏、互联网三个行业,互联网电视拓荒者,目前负责乐视网超级电视运营平台、LetvStore 、TV数据挖掘分析平台、TV开放平台项目建设。
微博:@leoobai
G粉,钓鱼迷和摩托迷
屌丝如何成为糕富帅
苦逼屌丝配置两台MySQL(主从)记录日志,通过CronJob加上SQL方式在Slave进行统计分析
发奋图强的屌丝尝试使用Cassandra将日志存储,使用Hadoop进行计算,然后把结果塞到MySQL里
太多的数据组合,屌丝尝试使用MySQL集群加上Kettle进行统计分析
鸟枪换炮屌丝开始使用大规模杀伤性武器Kafka、Storm、Hadoop、Hbase、Hive、Oozie、Sqoop
苦逼屌丝的数据起点
数据越来越大,需求越来越多,土豪上门了
人员离职造成系统失控,Cassandra没人维护了
人员离职对系统影响很大
不一定时刻都有合适的人接替
招聘成本很高,因为有技术的土豪都不愿意和屌丝做朋友
人员流失往往带来技术的流失
一个萝卜一个坑,萝卜走了坑要很久才能填上
重回屌丝时代
土豪和我们做朋友了
数据量从年初的3个月翻一倍到目前每个月翻一倍
数据每月一亿条增长到每周一亿条只用了半年不到
超级电视及盒子的快速增长引起需求快速变化,从设备行为快速向用户行为转变
一边找土豪一边增强自身能力
为此成立了独立的数据研发团队及数据分析人员
从年初我们也开始了鸟枪换炮的工作
增强内功
数据研发团队通过将近半年的努力,逐步搭建并完善了新的平台
新平台通过Kafka接收其他系统、超级电视、乐视盒子等业务数据、日志数据、以及其他元数据(包括内容、应用)然后整合加工
Storme通过整合Kafka加工之后的数据存入MySQL及Hbase中去
通过Hadoop及数据服务为AD-HOC、开放数据平台、数据门户对各个业务部门提供数据服务
这些是人才依靠招聘和内部自荐的方式进行扩充
屌丝的豪华七件套
数据入门第一套
测试服务器
两台4core cpu, 6G memory,20个线程
数据入门第一套
测试服务器
1台4core cpu, 6G memory,20个线程
数据入门第一套
测试服务器
1台4core cpu, 6G memory,20个线程
数据入门第二套
数据入门第三套
案例ROI分析
数据量每月基本翻一倍,原有的系统架构根本无法满足新的数据需求
Kettle方式的数据整合时间越来越久
采用Hadoop+Storm等方案,数据量增长不会对数据挖掘产生特别大的影响。
数据从原来每日抽取报表到实时数据随意查询整合
还有很多事情要做
案例启示
不同的阶段选择不同的方案
人员流失会导致技术流失
技术储备和内部自荐要比招聘牛人更快
对于新业务新平台都要小心对待,否则出现问题很难解决
数据安全很重要,重要数据需要提供多份备份
服务器多了就是爽。
土豪-我和我的小伙伴希望和您交朋友
Baidexin@
Thanks!
文档评论(0)