- 1、本文档共32页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
大数据,商业智能的挑战搬运大数据的亨利2019.4.201
目录1.大数据背景2.开源大数据生态圈和商用大数据生态圈3.开源前端生态圈和商用前端生态圈4.大数据BI系统的底层技术5.大数据BI系统的演变过程6.建设大数据BI系统的思考2
大数据背景大数据的4V1.数据量大(Volume)2.速度快(Velocity)3.类型多(Variety)4.价值密度低(Value)3
大数据背景更多的数据?谷歌自始至终都认为数据是越多越好,用谷歌产品研发总监PeterNorvig的话就是:更多的数据胜过更好的算法4
开源大数据生态圈诞生:谷歌大数据领袖谷歌,于2019年起发布一系列论文:1.《TheGoogleFileSystem》2.《MapReduce:SimplifiedDataProcessingonLargeClusters》3.《Bigtable:ADistributedStorageSystemforStructuredData》战火被点燃,从此进入大数据时代5
开源大数据生态圈诞生:开源大数据生态圈1.HadoopHDFS、HadoopMapReduce,HBase、Hive渐次诞生,早期Hadoop生态圈逐步形成2.Hypertable是另类。它存在于Hadoop生态圈之外,但也曾经有一些用户6
开源大数据生态圈HadoopMapReduce不适合实时计算?1.任务分配Server不会将信息Push到计算Node,而是让计算Node通过心跳去Pull任务2.基于框架的通用性,MapReduce代码也会在HDFS中传送,在各计算Node展开,再通过启动新JVM进程装载并运行3.类似的JVM进程启停有5、6次之多4.ReduceTask只能在所有MapTask完成之后才能启动7
开源大数据生态圈中期:谷歌.为了高扩展性,我们容忍了高延迟.2019年,谷歌又发布了论文:《Dremel:InteractiveAnalysisofWebScaleDatasets》.论文撰写于2019年.平静再次被打破8
开源大数据生态圈中期:开源在HadoopMapReduce框架之外,衍生出了一批低延迟的大数据分析项目:ClouderaImpala,MapRDrill,HBaseCoprocessor,Spark,etc.Caution!9
开源大数据生态圈后来:谷歌NoSQL引领着IT界时尚圈,几乎家喻户晓;低延迟的大数据分析项目在开源界刚出现没多久,谷歌又烧了第三把火。这次它发表的两篇论文是:1.《F1-TheFault-TolerantDistributedRDBMSSupportingGooglesAdBusiness》2.《Spanner:GooglesGlobally-DistributedDatabase》.多年以来,很多人以NoSQL为时尚。到后来才发现,原来谷歌早就在用SQL语句自如地访问自己的MPP数据库:F1和Spanner了.NoSQL定义曾经有很多版本,谷歌的最新定义是:NoTimetoSupportSQL10
开源大数据生态圈后来:开源界整体失声这里的黎明静悄悄...11
开源大数据生态圈总结:开源大数据生态圈落后,努力!基本套路:1.2019年,谷歌点燃了大数据战火2.2019年,谷歌又给大数据放了一把火3.2019年,谷歌再给大数据放了第三把火12
开源大数据生态圈几个另类:MySQL,MonetDB,PostgreSQL想过打造属于自己的MPP数据仓库吗?13
商用大数据生态圈一体机数据库/数据仓库:Scale-out数据仓库:Scale-up数据集市:Scale-out数据集市:14
开源前端生态圈开源:15
商用前端生态圈统计分析和数据挖掘:展现分析:16
大数据BI系统的底层技术必要的底层技术1.分布式计算2.分布式通信3.内存计算4.列存储5.库内计算17
大数据BI系统的底层技术分布式计算
1.OfflineMPP2.OnlineMPPDremel2.Online1.OfflineMapRedIRedIIGroup/AggrQueryMapMapRedIMapCaution!18
大数据BI系统的底层技术分布式通信1.Performance2.Load3.VarianceAverage(a)是相同值5,但是Variance(a)差距很大19
大数据BI系统的底层技术内存计算1.AllData2.HotDataDataCodeDat
您可能关注的文档
- 马原辨析题、简答题、论述题汇总.docx
- 2018年高考题和高考模拟题生物分项版汇编:专题11 植物的激素调节(含解析).docx
- 大学生音乐素养现状调查报告.docx
- 脑挫裂伤的护理查房.ppt
- 中国移动深圳信息大厦项目施工总承包项目BIM综合应用(精选BIM标书).docx
- 定格动画设计第一章定格动画概述.pptx
- 人民币汇率变动对中美贸易的影响【开题报告+文献综述+毕业论文】.docx
- 基于spring mvc和mybatis的轻量级mvc框架研究.docx
- 团组织生活会对照检查材料.docx
- 部编版语文五年级上册第三和第四单元测试题(附答案).docx
- 第三单元解决问题的策略 三年级下册数学高频考点重难点讲义(苏教版)(1).docx
- 4.4 解比例 数学六年级下册同步培优讲义(苏教版).docx
- 第四单元《根据方向与距离确定物体位置》(教案)五年级下册数学青岛版.docx
- (奥数典型题)第三讲 分解质因数 五年级下册数学思维拓展提升讲义(人教版).docx
- 2.2:2、5、3的倍数-人教版五年级数学下册第二单元:因数和倍数.docx
- 第六单元正比例和反比例 六年级下册数学高频考点重难点讲义(苏教版).docx
- 第二单元除数是一位数的除法 三年级下册数学高频考点重难点讲义(人教版).docx
- 第二单元-认识三角形和四边形 四年级数学下册提升(北师大版).docx
- 第一单元观察物体(三)五年级下册数学高频考点重难点讲义(人教版).docx
- 第九单元 数学广角—推理 二年级数学下册重难点知识点(人教版).docx
文档评论(0)