数据处理技术变迁.pptxVIP

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据处理技术变迁一淘数据部--士诚(张辉)目的分享淘宝系数据处理体系的变迁,供大家参考以此为引子,共同探讨在数据处理方面遇到的问题提纲数据处理是什么?技术选型的因素?淘宝系数据处理技术变迁我们正在做什么?数据处理是什么采集存储开发展现影响技术选型的因素变迁历程初期数据量:少业务需求:简单资源:匮乏报表:帮我汇总下几个数据吧时间:每天能看到昨天的就行 展现:用啥传我都可以,邮件没问题就我们两个人搞,对脚本熟悉,快点搞定吧!初期采集:脚本存储:oracle,文件开发:sql,脚本,crontab展现:邮件过渡时期数据量:有所膨胀业务需求:较复杂资源:缓解,需要工具报表:按人群,地域,年龄等维度组合的数据时间:最好能在我早晨到公司第一时间能够看到展现:最好能方便的查看任意天的服务器不够了,再加几台吧。我们需要调度、监控啊,不然无法保证按时间产出啊。过渡时期采集:复杂脚本存储:oracle rac,文件开发:sql,脚本,简易调度系统展现:BO大数据时期数据量:急剧膨胀业务需求:很复杂资源:完整团队共享的分布式平台1:我要实时,5分钟能看到数据2:生产系统需要宝贝销量数据,必须及时产出3:按照不同的维度,帮我做所有维度的报表吧4:我要看双11的活动效果。。。。。扛不住了,我们要做成体系化,平台化。对体系化需求提供平台服务。大数据时期(存储,开发)数据量剧增,尤其是非结构化数据(日志),过TOracle大数据时期(存储,开发)云梯规模专业维护方便使用数据大数据时期(存储,开发)m/r开发成本高,维护困难需要提高开发效率,解放人力资源仓库工程师对SQL熟练VS大数据时期(存储,开发)95%淘宝版hadoop,hive大数据时期(数据采集)非结构化数据采用Scp到中转机,后put到云梯每日0-1点集中操作,造成网络峰值和机器压力服务器资源利用率低影响计算时间大数据时期(数据采集)实时可靠开源:/p/TimeTunnel/wiki/index大数据时期(数据采集)结构化数据不同数据源数据采集麻烦服务器资源利用率低每日0-1点被占用,造成网络峰值和机器压力影响计算时间大数据时期(数据采集)异构的数据库/文件系统之间高速交换数据的工具效率大数据表增量同步DBSync开源:/p/datax/wiki/DataX大数据时期(数据采集)大数据时期(在云端)集中的数据平台管理系统云分析云调度云监控大数据时期(在云端)云分析大数据时期(在云端)云调度上万任务在云梯上运行关系复杂,不易维护元数据平台:血缘关系大数据时期(在云端)云监控任务出错数据波动监控数据倾斜任务生命周期大数据时期(展现)对内BOMSTR对外前端团队大数据时期(其他)实时数据处理StormSM新的存储技术HbaseOceanBase(开源:/)目前的体系架构前端任务调度︵在云端︶监控报警系统BOOLAP引擎RestfulOracleMysqlOceanBaseHBaseHADOOP(Hive和m/r)StormDataX , DBSync, TT业务库(MySQL, Oracle)各类日志我们正在做什么Ad浩客数据测试数据可视化Thank you在实际的工程里面,这里的开发实际上还包含了:运维,监控。资源包括:机器,软件,人力这里总体是综合三个条件的平衡点,找到一个最有效的解决方案八爪鱼:两个开发人员用php开发出的一个调度监控系统,可以实现任务组级别的调度,任务出错能够报警。在当时能够很好的满足需求。此工具一直使用了近一年,后续因为公司整合的原因停止了使用。BO:展现完整的团队:共有100多人,包含了基础工具组,BI组、数据分析师、ETL工程师、运维工程师 等。云梯集群变迁的状况,云梯属于我们现有的一个数据处理中心09年开始使用Hive,期间也进行了Hive与Pig的选型。目前我们95%以上的任务都是用hive进行的开发实现,只有一些原始日志清理等过于复杂操作才使用m/r进行开发。极大的节约了人力资源,可以让开发更关注数据本身,而不是开发上面。性能:淘宝patch了自己版本的hadoop, hive程序。性能比社区版有15%左右的提升。HADOOP:1:ADFS主要解决的是HDFS NameNode在设计上存在单点故障、内存瓶颈。2:减少磁盘使用量而实施了HDFS Raid技术。HIVE:1:Hive udf 自己做了2:mutli count-disctinct3:CombineHiveInputFormat/p/datax/wiki/DataX产品说明/dbsync是一个用于同步服务器数据到HDFS的产品,通过分析数据库服务器的log文件来提取相应的数据库动作,进而达到数据库到HADOOP的数据同步,供相关部门提取增量数据。通过采集工具建立,云梯已经变成了我们一个数据处理的中心内容。

您可能关注的文档

文档评论(0)

精品文库 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档