- 1、本文档共32页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第9章OLAP联机分析处理
9.1OLAP概述9.2数据立方体9.3多维数据模型与OLAP操作9.4利用Kylin实现OLAP分析
引例思考如何基于海量数据进行有效的数据多维分析,让用户联机任意查询并获得有用的分析结果,对企业来说是一种挑战。请思考:(1)具体技术场景如何,具备哪些特点?(2)如何进行技术选型?(3)海量数据的多维分析如何解决?OLAP概述OLAP联机分析处理多维计算的核心概念利用Kylin实现OLAP分析多维计算的核心概念
OLAP概述9.1
OLAP简介数据仓库是进行决策分析的基础,但还必须要有强有力的工具进行分析和决策,OLAP即是与数据仓库密切相关的工具产品。在OLAP系统中,客户能够以多维视觉图的方式,搜寻数据仓库中存储的数据。OLAP(OnLineAnalyticalProcessing,联机分析处理)是使用多维结构为分析提供对数据的快速访问的一种最新技术。OLAP的源数据通常存储在关系数据库的数据仓库中。OLAP特性多维性可理解性或可分析性交互性快速性
OLAP与OLTP的关系数据处理大致可以分成两大类:联机事务处理OLTP(on-linetransactionprocessing)、联机分析处理OLAP(On-LineAnalyticalProcessing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。OLTP:系统强调数据库内存效率,强调内存各种指标的命令率,强调绑定变量,强调并发操作。OLAP:系统则强调数据分析,强调SQL执行市场,强调磁盘I/O,强调分区等。
数据仓库与OLAP的关系在数据仓库系统中,OLAP和数据仓库是密不可分的,两者的关系如图9-2所示。数据仓库是一个包含企业历史数据的大规模数据库,这些历史数据主要用于对企业的经营决策提供分析和支持。而OLAP服务工具利用多维数据集和数据聚集技术对数据仓库中的数据进行处理和汇总,用联机分析和可视化工具对这些数据进行评价,将复杂的分析查找结果快速地返回用户。
数据立方体9.2
数据立方体数据立方体只是多维模型的一种形象说法,定义了分析数据使用的模型以及模型中的数据维度、度量、如何合并段。在数据集中由维度构建出来的多维空间如下图所示,包含了需要分析的基础数据,所有的聚合数据操作都在上面进行。数据立方体多维数据模型与数据立方体的关系
数据立方体的演进以商品销售数据为例,涉及维表有time(统计时间),item(商品类别),location(地点)和supplier(供应商),所显示的测算为销售金额dollars_sold(单位:$1000)。销售数据2D效果图
销售数据3D效果图
销售数据4D效果图
数据立方体算法逐层算法一个完整的数据立方体,由N-dimension立方体,N-1dimension立方体,N-2维立方体,0dimension立方体这样的层关系组成,除了N-dimension立方体,基于原数据计算,其他层的立方体可基于其父层的立方体计算。逐层算法
数据立方体算法快速算法快速Cube算法(FastCubing)是麒麟团队对新算法的一个统称,它还被称作“逐段”(BySegment)或“逐块”(BySplit)算法。该算法的主要思想是,对Mapper所分配的数据块,将它计算成一个完整的小Cube段(包含所有Cuboid),每个Mapper将计算完的Cube段输出给Reducer做合并,生成大Cube,也就是最终结果。快速算法
多维数据模型与OLAP操作9.3
典型的OLAP操作数据仓库的数据模型是多维数据模型,OLAP操作是基于多维数据模型组织的数据进行查询操作。对于给定的一个多维数据集,如果每个维有多个层次,可以在每个维组合以及每个维层次上构建数据立方体。例如,对于表9-2的数据集,若仅考虑2013年的销售情况,对应表9-3,相应的数据立方体为(年份=2013,城市,商品,销售量);若考虑地点为分区的情况,对应表9-4,相应的数据方体为(年份,分区,商品,销售量)。城市2013年电视机电冰箱洗衣机北京123443上海153232南京114332分区2013年2014年电视机电冰箱洗衣机电视机电冰箱洗衣机华北123443232167华东26756491221602013年地区商品销售情况表2013年的分区层次的商品销售情况某商品销售情况表
典型的OLAP操作OLAP的多维分析操作包括:切片(
您可能关注的文档
- 基础素描- 课件 第1--3章 素描概略; 素描石膏几何体集合写生; 素描静物像写生.pptx
- 基础素描- 课件 第4--6章 素描人物肖像写生; 素描人物半身像写生; 素描的风格与表现性语言.pptx
- 数据仓库原理与实践 课件 第1章 数据仓库概述.pptx
- 数据仓库原理与实践 课件 第2章 数据仓库的数据模型.pptx
- 数据仓库原理与实践 课件 第3章 数据仓库设计.pptx
- 数据仓库原理与实践 课件 第4章 数据仓库技术架构.pptx
- 数据仓库原理与实践 课件 第5章 数据集成与存储.pptx
- 数据仓库原理与实践 课件 第6章 数据仓库工具Hive.pptx
- 数据仓库原理与实践 课件 第7章 基于Spark平台的数据计算.pptx
- 数据仓库原理与实践 课件 第8章 任务调度.pptx
- 2025年成都航空职业技术学院单招职业技能测试题库完美版.docx
- 2025年大兴安岭职业学院单招综合素质考试题库学生专用.docx
- 2025年山东商务职业学院单招职业倾向性测试题库带答案.docx
- 2025年河北外国语学院单招综合素质考试题库一套.docx
- 2025年广东省河源市单招职业倾向性测试题库新版.docx
- 2025年四川体育职业学院单招职业技能考试题库附答案.docx
- 2025年湖南工艺美术职业学院单招职业倾向性测试题库参考答案.docx
- 2025年山东城市建设职业学院单招职业适应性测试题库及答案1套.docx
- 2025年无锡城市职业技术学院单招职业倾向性考试题库1套.docx
- 2025年长垣烹饪职业技术学院单招职业适应性测试题库完美版.docx
文档评论(0)