大数据-商业智能挑战.ppt

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

大数据,商业智能的挑战搬运大数据的亨利2019.4.201

目录1.大数据背景2.开源大数据生态圈和商用大数据生态圈3.开源前端生态圈和商用前端生态圈4.大数据BI系统的底层技术5.大数据BI系统的演变过程6.建设大数据BI系统的思考2

大数据背景大数据的4V1.数据量大(Volume)2.速度快(Velocity)3.类型多(Variety)4.价值密度低(Value)3

大数据背景更多的数据?谷歌自始至终都认为数据是越多越好,用谷歌产品研发总监PeterNorvig的话就是:更多的数据胜过更好的算法4

开源大数据生态圈诞生:谷歌大数据领袖谷歌,于2019年起发布一系列论文:1.《TheGoogleFileSystem》2.《MapReduce:SimplifiedDataProcessingonLargeClusters》3.《Bigtable:ADistributedStorageSystemforStructuredData》战火被点燃,从此进入大数据时代5

开源大数据生态圈诞生:开源大数据生态圈1.HadoopHDFS、HadoopMapReduce,HBase、Hive渐次诞生,早期Hadoop生态圈逐步形成2.Hypertable是另类。它存在于Hadoop生态圈之外,但也曾经有一些用户6

开源大数据生态圈HadoopMapReduce不适合实时计算?1.任务分配Server不会将信息Push到计算Node,而是让计算Node通过心跳去Pull任务2.基于框架的通用性,MapReduce代码也会在HDFS中传送,在各计算Node展开,再通过启动新JVM进程装载并运行3.类似的JVM进程启停有5、6次之多4.ReduceTask只能在所有MapTask完成之后才能启动7

开源大数据生态圈中期:谷歌.为了高扩展性,我们容忍了高延迟.2019年,谷歌又发布了论文:《Dremel:InteractiveAnalysisofWebScaleDatasets》.论文撰写于2019年.平静再次被打破8

开源大数据生态圈中期:开源在HadoopMapReduce框架之外,衍生出了一批低延迟的大数据分析项目:ClouderaImpala,MapRDrill,HBaseCoprocessor,Spark,etc.Caution!9

开源大数据生态圈后来:谷歌NoSQL引领着IT界时尚圈,几乎家喻户晓;低延迟的大数据分析项目在开源界刚出现没多久,谷歌又烧了第三把火。这次它发表的两篇论文是:1.《F1-TheFault-TolerantDistributedRDBMSSupportingGooglesAdBusiness》2.《Spanner:GooglesGlobally-DistributedDatabase》.多年以来,很多人以NoSQL为时尚。到后来才发现,原来谷歌早就在用SQL语句自如地访问自己的MPP数据库:F1和Spanner了.NoSQL定义曾经有很多版本,谷歌的最新定义是:NoTimetoSupportSQL10

开源大数据生态圈后来:开源界整体失声这里的黎明静悄悄...11

开源大数据生态圈总结:开源大数据生态圈落后,努力!基本套路:1.2019年,谷歌点燃了大数据战火2.2019年,谷歌又给大数据放了一把火3.2019年,谷歌再给大数据放了第三把火12

开源大数据生态圈几个另类:MySQL,MonetDB,PostgreSQL想过打造属于自己的MPP数据仓库吗?13

商用大数据生态圈一体机数据库/数据仓库:Scale-out数据仓库:Scale-up数据集市:Scale-out数据集市:14

开源前端生态圈开源:15

商用前端生态圈统计分析和数据挖掘:展现分析:16

大数据BI系统的底层技术必要的底层技术1.分布式计算2.分布式通信3.内存计算4.列存储5.库内计算17

大数据BI系统的底层技术分布式计算

1.OfflineMPP2.OnlineMPPDremel2.Online1.OfflineMapRedIRedIIGroup/AggrQueryMapMapRedIMapCaution!18

大数据BI系统的底层技术分布式通信1.Performance2.Load3.VarianceAverage(a)是相同值5,但是Variance(a)差距很大19

大数据BI系统的底层技术内存计算1.AllData2.HotDataDataCodeDat

您可能关注的文档

文档评论(0)

159****1944 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档