- 6
- 0
- 约2.45千字
- 约 4页
- 2020-02-23 发布于江西
- 举报
一、数据分析平台层次解析
大数据分析处理架构图
数据源: 除该种方法之外,还可以分为离线数据、近似实时数据和实时数据。按照图中的分类其实就是说明了数据存储的结构,而特别要说的是流数据,它的核心就是数据的连续性和快速分析性;
计算层: 内存计算中的Spark是UC Berkeley的最新作品,思路是利用集群中的所有内存将要处理的数据加载其中,省掉很多I/O开销和硬盘拖累,从而加快计算。而Impala思想来源于Google Dremel,充分利用分布式的集群和高效存储方式来加快大数据集上的查询速度,这也就是我上面说到的近似实时查询;底层的文件系统当然是HDFS独大,也就是Hadoop的底层存储,现在大数据的技术除了微软系的意外,基本都是HDFS作为底层的存储技术。上层的YARN就是MapReduce的第二版,和在一起就是Hadoop最新版本。基于之上的应用有Hive,Pig Latin,这两个是利用了SQL的思想来查询Hadoop上的数据。
关键: 利用大数据做决策支持。R可以帮你在大数据上做统计分析,利用R语言和框架可以实现很专业的统计分析功能,并且能利用图形的方式展现;而Mahout就是一个集数据挖掘、决策支持等算法于一身的工具,其中包含的都是基于Hadoop来实现的经典算法,拿这个作为数据分析的核心算法集来参考还是很好的。
如此一个决策支持系统要怎么展现呢?其实这个和数据挖掘过
您可能关注的文档
- 促销“互动剧院”.doc
- 促销管理规范.docx
- 促销活动稽核管理办法.doc
- 促销及公关活动管理制度.doc
- 促销作业安排.doc
- 萃取工艺在处理工业含溴废水信溴回收中的应用.doc
- 村干部经济责任专项审计报告模板.doc
- 村支部书记个人先进事迹材料三篇.docx
- 存酒管理制度.doc
- 存款储蓄和商业银行教学设计.doc
- 第一节 电阻和变阻器(讲义)物理沪科版2024九年级全一册.docx
- 第3节 质量的测量 (讲义) 物理沪科版(五四学制)2024 八年级上册.docx
- 第14讲 圆周运动(复习讲义)高考物理一轮复习.docx
- 暑假预习专题15 指数函数(20题型)新高一数学讲义(沪教版2020).docx
- 第二节 发电机是怎样工作的(讲义)物理沪科版2024九年级全一册.docx
- 4.18 东晋南朝政治和江南地区开发 教学设计 部编版七年级上学期历史.docx
- 2.5实验:用单摆测量重力加速度(表格式教学设计)物理人教版2019选择性必修第一册.docx
- 第49讲 沉淀溶解平衡及图像分析(讲义)高考化学复习讲义(新教材新高考).docx
- 旅游景区行业分析报告:内外兼修,多元创新.pdf
- Unit 1~2 单元语法知识点梳理 高二下学期期中考点(上教版2020选择性必修第二册).pptx
最近下载
- 建筑防雷设计规范(上).pdf VIP
- 基于数值模拟的地铁车站深基坑支护设计优化研究.docx
- 2026杭州市西湖区融媒体中心招聘专业技术人员(编外)1人考试备考题库及答案解析.docx VIP
- 第2章-波浪理论(4版).ppt
- 新疆《海绵城市建设技术导则》(试行).doc
- 2026年一级建造师之一建铁路工程实务考试题库300道及答案(易错题).docx VIP
- 树牢为民造福的政绩观课件树立和践行正确政绩观PPT课件.pptx VIP
- 电力设施抢修服务流程.docx VIP
- 2026年食品安全监督执法内部考核试卷及答案.docx VIP
- 2026年一级建造师之一建铁路工程实务考试题库300道及答案(考点梳理).docx VIP
原创力文档

文档评论(0)