董兆安中国人民大学信息学院大数据处理与分析相关平台简介内容来自CSDN等互联网资源大数据及其主要特征视频文本图片VolumeVelocityVarietyVolumeVolumeVolume模态多样体量巨大速度极快音频分享的内容条目超过25亿个/天,增加数据超过500TB/天到2020年,数据总量达40ZB,人均5.2TB规模(Volume)、种类(Variety)、 速度(Velocity) 2001年,道格.莱尼(Doug Laney)关于大数据定义的误解/doug-laney//doug-laney/Other “V”s like veracity, validity, value, etc. are aspirational qualities of all data, not definitional qualities of big data.硬件、技术、数据不断进化传统的数据处理ExternalDataSourcesExtractTransformLoadData WarehouseUsersData processingSQLIntegrated storage数据分析的需求也逐渐提高OLTPOLAPRTAP从海量数据中快速获取有价值信息低延迟、高性能、分布式、可扩展、容错。需求变化Real-TimeInteractiveNon-InteractiveBatchOnline systemsReal time AnalyticsComplex event processingParameterized ReportsDrilldownVisualizationExplorationData preparationIncremental batch processingDashboardsOperational batch processingEnterprise reportsData mining0--5s5s--1m1m--1h1h+场景不同-工具不同-视角不同Hortonworks将应用需求进行了如下划分:实时应用场景(0~5s):Storm、S4、Cloudera Impala,Apache Drill等;交互式场景(5s~1m):最好支持SQL,:Cloudera Impala、Apache Drill、Shark等;非交互式场景(1m~1h):MapReduce、Hive、Pig、Stinger等;批处理场景(1h+)运行时间较长,处理数据量较大,对容错性和扩展性要求较高MapReduce、Hive、Pig、Stinger等。大数据分析与处理架构——一个案例Repository, WorkbenchIngestion and Real-time Analytic ZoneAnalytics and Reporting ZoneIngestFilter, TransformCorrelate, ClassifyQuery EnginesCubesWarehousing ZoneDataSinksExtract, AnnotateEnterprise WarehouseDescriptive,PredictiveModelsConnectorsIndexes, facets Landing and Analytics Sandbox ZoneAnalyticsMapReduceHive/HBaseCol StoresWidgetsDiscovery,VisualizerSearchData MartsMetadata and Governance ZoneDocumentsIn Variety of FormatsModelsIngest大数据处理与分析技术数据采集数据处理数据存储统计分析数据挖掘模型预测数据可视化元数据管理数据处理的几种模式转换 TransformerConvert payload or modify headers过滤 FilterDiscard messages based on boolean evaluation路由 RouterDetermine next channel based on content分割 SplitterGenerate multiple messages from one聚集 AggregatorAssemble a single message from multiple几种平台介绍MPPHadoopstormspark开源的大数据处理平台SQL on HadoopHortonworks: Tez、StingerCloudera: ImpalaFacebook:Hive,PrestoGoogle发布了Dremel和PowerDrillEMC推出Piv
原创力文档

文档评论(0)