大数据分析平台.docxVIP

  • 23
  • 0
  • 约5.84千字
  • 约 8页
  • 2022-09-07 发布于湖北
  • 举报
大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。[6]大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。

---------宋停云与您分享---------- ---------宋停云与您分享---------- 、 、、 大数据分析平台 大数据分析平台 、 0 ---------宋停云与您分享---------- ---------宋停云与您分享---------- 一、数据分析平台层次解析 大数据分析处理架构图数据源: 除该种方法之外,还可以分为离线数据、近似实时数据和实时数据。按照图中的分类其实就是说明了数据存储的结构,而特别要说的是流数据,它的核心就是数据的连续性和快速分析性; 大数据分析处理架构图 计算层: 内存计算中的 Spark 是 UC Berkeley 的最新作品,思路是利用集群中的所有内存将要处理的数据加载其中,省掉很多 I/O 开销和硬盘拖累,从而加快计算。而 Impala 思想来源于 Google Dremel,充分利用分布式的集群和高效存储方式来加快大数据集上的查询速度,这也就是我上面说到的近似实时查 询;底层的文件系统当然是 HDFS 独大,也就是 Hadoop 的底层存储,现在大数据的技术除了微软系的意外,基本都是 HDFS 作为底层的存储技术。上层的 YARN 就是 MapReduce 的第二版,和在一起就是 Hadoop 最新版本。基于之上的应用有 Hive,Pig Latin,这两个是利用了 SQL 的思想来查询 Hadoop 上的数据。 关键: 利

文档评论(0)

1亿VIP精品文档

相关文档