亿级大数据实时分析平台(最新修正版).ppt

亿级大数据实时分析平台(最新修正版).ppt

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
亿级大数据实时分析平台(最新修正版).ppt

happy happy happy happy 亿级大数据实时分析平台 * 大数据的故事:价值为美 大量,快速,多样,变化等 采样的数据价值明显降低 实时数据的价值为最大 大数据外表光鲜亮丽,内则无 可奈何 大数据的变现之殇 《大数据的8个小观点》 * 小米的大数据技术框架 数据采集 数据存储 数据管理 数据分析 算法 可视化 Scribe ETL HDFS HBASE Kafka Hue Kerberos MapReduce Spark Strom Hive Impala 机器学习 自然语言 数据挖掘 统计分析 JavaScript E-Charts H5/App Zookeeper Druid ES KUDU * 小米大数据应用 广告营销 点击预估 人群画像 营销DMP 精准营销 搜索和推荐 互联网金融 精细化运营 防黄牛 图片分析和处理 * 小米大数据实时分析场景案例 * 数据分析的几个步骤 数据收集 JS SDK Server2 Server 数据处理 清洗去噪 反虚假数据 数据建模 模型管理 模型优化 数据分析 数据报告 数据预警 数据洞察 数据可视化 热力图 切片聚合 战略分析 诊断型分析 响应型分析 商业报表 竞品分析,趋势分析 智能引擎,预测模型 预测型分析 行动建议 * 大数据分析工具 MOLAP DRUID Elastic Search kylin Pinot ROLAP Impala Hive Spark SQL MySQL 开源方案 商业方案 * 如何选择数据分析工具 * 小米数据统计分析平台-架构 LVS/NGIX Analytics Server Scribe Log HDFS Kafka Storm MapReduce Spark HBase MySQL ES Query Server Redis DRUID FE-WEB 运营 洞察 * 一些分析工具的技术和应用 Pinot * 为什么青睐HBase? 天?为了?数据 改变Schema的时候平滑 扩容?便 成本考虑 Facebook等公司做出了很好的? 范 ?些重要的Feature CheckAndPut Increment原?性 RowKey TTL 单RegionServer内的强?致 ?I/O 我们有三位HBase Committer! * Hbase 在小米的改进 * HBase 在小米的改进 * HBase 在小米 * 如何从MySQL 平滑迁移到HBASE? 1. 双写HBase和mysql 2. 迁移历史数据(使?用? 老的 时间戳) 3. 双读HBase和mysql,验 证 数据?一致性 4. 灰度返回HBase结果 APP MySQL HBase * 几种开源MOLAP分析工具的比较 DRUID Pinot kylin 使用场景 实时处理分析 实时处理分析 OLAP分析引擎 开发语言 JAVA JAVA JAVA 接口协议 JSON JSON OLAP/JDBC 发布时间 2011 2015 2015 Sponsor MetaMarkets /Yahoo LinkedIn eBay 技术 实时聚合 实时聚合 预处理,Cache * DRUID 特点 来自METAMarkets,应用在Yahoo,OneAPM, 小米,阿里,Baidu 为分析而设计 为OLAP而生,它支持各种filter、aggregator和查询类型 交互式查询 低延迟数据,内部查询为毫秒级, 高可用性 集群设计,去中性化规模的扩大和缩小不会造成数据丢失。 可伸缩 现有的Druid部署每天处理数十亿事件和TB级数据。Druid被设计成PB级 别。 * DRUID Architecture :http://druid.io *Pinot , PowerDrill , Dremel * DRUID使用场景:广告实时统计分析架构图 (非计费部分) Front Door 点击/展现 Kafka HDFS Scribe DRUID Data Replay Data Viewer * 什么是Pinot 分布式的实时OLAP数据分析平台 用于LinkedIn内部,50个场景,250*3 节点 “谁看了我的Profile” “广告创建,跟踪” “内部数据分析BI等” 功能 SQL -Like查询,不支持JOIN 支持多种数据源Kafka, Hadoop 自动数据过期等 不支持UDF(开发中) * Pinot Components Architecture * happy happy happy happy happy happy happy happy happy happy happy happy happy happy ha

文档评论(0)

liuxiaoyu98 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档