- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多维分析技术在大数据环境下发展
多维分析技术在大数据环境下发展
摘要:在大数据时代,涌现了大量基于Hadoop的多维分析技术,分析性能不断提升,该文选取了几项有代表性的技术进行了介绍,并分析了它们的特点。最后,对基于大数据的多维分析技术进行了总结和展望。
关键词:多维分析;OLAP;大数据
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)04-0004-02
1 概述
随着多维分析技术的发展,分析系统的数据量呈指数级增长,传统的多维分析技术无论在存储方面还是在大规模数据技术方面都遭遇到性能瓶颈,同时对数据分析的精确性和速度等要求逐渐提高,已经无法满足企业的要求。近年来,大数据技术得到了快速的发展,分布式文件系统HDFS和MapReduce编程模型成为了应对海量数据的有效技术,Hadoop生态圈的迅速成熟,Hive、HBase、HadoopDB 等 NoSQL等技术相继出现,上述技术都提供了海量数据多维分析功能,在各领域得以广泛应用。本文在综述多维分析技术发展的基础上,重点对几个有代表性的多维分析技术进行了介绍。可以预见,未来在大数据多维分析系统中,这些技术会在市场中占有重要位置。
2 传统多维数据分析技术介绍
多维数据分析技术是对数据的收集、管理和分析的过程,通过它使企业的数据分析人员获得知识,为公司做出决策提供重要的支持。多维分析系统的后台通常是由数据库或数据仓库存储数据,经过OLAP服务器实现数据分析,而前台通过图表、表格等展示工具来为用户展示,它是多种计算机技术和信息处理技术的组合,技术主要包括:数据库和数据仓库技术(Data Warehousing)、数据抽取转换加载技术(ETL-Extraction Transformation Loading)、联机分析处理技术(OLAP-Online Analytical Process)、数据挖掘技术(Data Mining)、前端展现技术等。
联机分析处理(On-Line Analytical Processing OLAP)是一种共享多维信息的快速分析技术[1],也是进行多维分析的重要技术。OLAP定义了事实表和维表,通过事实表和维表构建多维数据模型,然后经过OLAP服务器将数据存储在OLAP服务器或者数据仓储中,数据分析人员可以通过前端展示工具,从多个维度的组合、粒度的划分等等将数据以图表的方式展示出来,供决策人员和高层管理人员进行分析。OLAP可以完成的查询操作有多表关联,可以使用聚合函数如count,sum,avg等,它的多维分析操作还有切片、切块、钻取、旋转等,提高了分析的灵活性,满足了不同分析的需求。
OLAP的数据存储格式主要有3种形式[2],分别是ROLAP,MOLAP和HOLAP。
3 大数据环境下的多维分析技术
传统的多维分析系统也存在着许多不足,业务要求经常改变,这样就导致将业务模型也进行调整,而业务的维度和度量一旦发生变化,OLAP中的多维数据模型也需要重新构建;业务人员在同一个模型上进行多维分析,同时也限制了?I务人员分析问题的角度,从分析数据中隐含的信息变成了普通的日常报表;数据的大量增加使传统的多维分析系统快速准确的工作。
使用Hadoop[4]进行多维分析,首先能解决上述问题,HDFS有着优秀的高容错和高吞吐量的特点,可以存储的文件支持高速增长的数据,解决了数据存储问题;其次MapReduce[5]有很强的分布式并行化处理能力,在上千台机器组成的集群上运行处理大规模数据,它并不会由于数据的增加使开销大大增加,可以很好的完成OLAP的计算工作。总之,Hadoop可以支持各种结构和非结构的数据存储和计算,包含了各种各样的维度组合,即使维度的数量大大增加,也不会显著影响分析的性能。
Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势,事实上已成为当前互联网企业主流的大数据分析平台,以此为基础,出现了大量基于大数据的多维分析方法[6]。
3.1 Hive
在大数据时代,Hadoop作为一个开源框架,已经成为了一种标准规范,越来越多的工具都在围绕着Hadoop来工作。Hive[7] 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的工具。
Hive由元存储,驱动,查询编辑器,执行引擎以及对外提供接口的客户端组件组成,HQL查询语句从客户端提交后,经过查询编译器,运用 元存储中的元数据进行类型检测和语法分析,生成一个逻辑方案,然后通过的优化处理,产生一个 MapReduce 任务。
Hive中提供的SQL语句也称为
文档评论(0)