腾讯,大数据解决方案.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
腾讯,大数据解决方案 篇一:解密腾讯大数据 解密腾讯大数据 数据挖掘DW——数据分析微信公众号(datadw)分析整理,分享数据分析干货文章、资料。 产品线众多,拥有海量的活跃用户,每天线上产生的数据超乎想象,必然会成为数据大户,为了保证公司各业务产品能够使用更丰富优质的数据服务,腾讯的大数据平台做了那些工作?具备哪些能力?记者采访到了腾讯数据平台总经理蒋杰先生,他将给大家揭秘腾讯的大数据平台! 建设专业数据平台、持续提升处理能力、贴身满足业务需求、挖掘创造数据价值———蒋杰(腾讯大数据团队使命) CSDN: 首先还是请蒋总介绍一下自己和你的职业生涯。 蒋杰:我是蒋杰,目前是腾讯数据平台部的负责人。我的第一份工作其实并非在互联网行业,而是在传统IT行业工作了五年。随着互联网在中国的爆发,我也从传统IT行业转移到了阿里巴巴,在那里的五年也是我在互联网行业起步和成长的五年。之后有机会与腾讯结缘,对我来说也是进一步提升和发挥的机会,于是就举家由杭州南迁到深圳工作至今了! 十多年的职业生涯,转换过公司也转换了工作生活的城市,但一直不变的是我的工作始终围绕着“数据”展开,无论是在传统IT行业,还是之后的互联网行业,“数据”始终是我工作的核心内容,而我自己最大的职业追求也离不开“数据”,我想可能未来十年到二十年之内我的工作还是会围绕着“数据”,因为我热 爱大数据的技术,也在不断发掘数据中蕴藏的巨大价值,并相信数据在不断地改变着我们的生活! CSDN: 可否介绍一下目前腾讯数据平台部的技术团队规模和结构是怎样的? 蒋杰:目前我们数据平台部共有200多人。整个数据平台是按照基础平台、核心应用、产品包装和质量监控的思路分为四部分: ?数据中心,负责建设管理腾讯大数据基础平台; ?精准推荐中心,负责研发落地以数据挖掘为核心的大数据应用; ?产品中心,负责大数据产品的策划和运营; ?质量中心,负责我们的质量监控与保障。 CSDN: 能简单说说腾讯目前的数据情况么? 蒋杰:要说腾讯的数据情况,得从不同的业务说起。其中主要包括以下5种: ?QQ:月活跃用户超8亿,最高同时在线1.9亿;在线人际关系链超1000亿; ?微信:月活跃超3.5亿;日均消息量超50亿; ?空间:月活跃用户超6亿;日均相册上传超过4亿;日写操作总数过10亿; ?游戏:腾讯游戏月活跃用户4.5亿;手机游戏月活跃用户近2亿; ?网站:日均浏览量PC侧超17亿,手机侧近13亿;日访问用户量PC侧近1.3亿;手机侧近8千万; 从这些数据可以看到,腾讯每天的数据量是一个天文的数字,目前最高日接入消息条数8000亿 ,日接入数据量200TB,并发分拣业务接口10000个。 CSDN: 能不能详细介绍一下这个平台架构的架构设计思路? 蒋杰:其实这些你都可以从腾讯目前的发展看出来,主要考虑的是数据开放、专业化、成本三点。 ?数据开放:使得公司数据集中形成数据开放,在保障数据安全性的前提下,提供自助化服务平台,从人肉服务模式转向平台自动化服务方式,帮助BG数据分析人员通过自助服务的方式,降低人工成本,满足快速增长的需求。 ?专业化:从提供大量独立的系统/工具转变向提供集成、一体化、自动化数据开发平台服务。来源各个业务块数据进行整合和深入挖掘产生用户画像,为业务提供有价值的服务,并且快速孵化更多的数据应用。 ?成本与性能:优化平台存储和计算方案、优化的数据模型和算法、去除重复计算和存储;通过建设大规模集群,形成规模效应,提升平台能力并降低成本; 随着平台上的数据量、用户数、任务数不断增长,每个新用户/新任务带来的新增成本不断降低,成本优势可以不断放大。 CSDN: 能不能详细介绍一下这个平台架构的构建过程? 蒋杰:腾讯大数据平台现在主要从离线和实时两个方向支撑海量数据接入和处理,核心的系统包括TDW、TRC和TDbank。 TDW是我们从2009年开始自研的腾讯分布式数据仓库,我们基于开源的hadoop+hive架构做了大量优化,包括兼容商业数据库语法和hadoop单点消除及可扩展性提升等。从2011年正式发布上线到2013 年初,TDW完成了对腾讯公司内部几乎全业务的覆盖,成为腾讯最大的离线处理平台,目前接入的数据量已达到百P级别,并伴随业务的发展和新业务的出现不断快速增长。 2010年起,随着业务对实时数据处理需求的增强,我们开始进行新的平台规划与建设:我们基于storm研发了腾讯实时计算平台TRC,我们将社区的storm用java重新改写以提升稳定性和效率,并且使它运行在我们的统一资源管理平台GAIA上,进一步提升集群效率和扩展能力;为了方便用户使用,我们为TRC开发了SQL和Pig用户接口,并且在

文档评论(0)

raojun0012 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档