AdMaster海量数据分析架构.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
海量数据分析架构提纲传统的BI数据分析系统介绍米国互联网企业的工具和架构AdMaster的业务特性和数据分析架构-- 中小企业快速搭建一个海量数据分析平台传统BI产品的组成电子产品日用品书籍江苏上海浙江2010一季度 2010一季度 2010一季度Data Warehousing ToolETL ToolOLAP ServerReporting Tool Data Mining Tool权限, 图形化, 调度器商业 OLAP ServerOracle Hyperion Essbase IBM Cognos Enterprise Server(MOLAP)SAP BO AnalysisSAS DWMicroStrategy Intelligence ServerMicrosoft Analysis Service开源的 BI 工具:PentahoETL:KettleOLAP:MondrianJFreeReportR / RapidMinerSolution Action向左?向右?软硬结合 -高性能并行计算 -硬件DSM分布式系统 -hadoop海量数据分析的问题和挑战健壮性 Failover and Recovery成本扩展性消除单点低延迟分布式数据仓库技术: MPP+ 行列混合存储+MapreduceEMC GreenplumTeradata AsterdataHive(RCFile)Google 数据分析技术列表MapReduceGFSBigtableChubbySawzallPercolator (Oceanbase)TenzingFacebook 数据分析技术列表PTailPuma3HBaseServingHadoopHBase(Bigtable)Hive(HiveQL) Zookeeper(Chubby)Pig(Sawzall)ScribeCassandraData Freeway(Scalable Data Stream Framework)Puma(Stream Aggregation Engine)Twitter 数据分析技术列表HadoopStormKestrelElephantDBCassandraAdmaster 业务特性海量数据集,多个数百个的非常常用的维度—数万种维度组合频繁的ad hoc即席查询数据集的数据质量差数据集格式各样(半格式化,非格式化)我们需要流式计算: 并行计数 , 增量统计算法, 报警, 日志采集, ETL块计算: 适用范围 Memory Complex Aggregations and Iteration 比如 unique user count, most frequent elements, ML全局计算 : 大部分的统计分析算法老系统的问题ETL 的难度汇总到HDFS需要较长时间Hadoop poor latency建立分析系统1234chokyCookie 1Cookie 1Page1 12-02-24151000125http://w不错8989Cookie 2Cookie 2page2151000125http://w1234blade50$Cookie 3Cookie 315100012502-2530001http://w差评招商银Storm -日志汇总+ETL Storm -DRPC HadoopRedis –关联多个大数据集 Redis 做join和Column Family Store系统 (HBase Cassandra)做join的区别AdMaster Infrastructure采集数据Redis Cookie ServiceMySQL实时报警MySQL用户实时复杂分析MongoDBoffline分析结果遇到的坑Hadoop Job中, Map和Reduce的个数的动态分配Storm内存泄漏BugRedis 数据结构要设计的尽可能节省内存优化计算瓶颈,消除短板一些建议使用Hadoop 1.0之后的版本,性能大大提升先尝试Pig , 然后Cascading, 最后Java MapReduce使用 Lzo 压缩, 公平调度器使用Storm 0.70之后的版本,解决了重要Bug更好的JVM:Zing or JRocket, 选用正确的GC,并监控根据业务正确选用NoSQL

文档评论(0)

a13355589 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档