基于分布式数据库的ROLAP数据自助分析系统的研究与应用.docxVIP

  • 9
  • 0
  • 约3.23千字
  • 约 4页
  • 2021-06-28 发布于四川
  • 举报

基于分布式数据库的ROLAP数据自助分析系统的研究与应用.docx

基于分布式数据库的ROLAP数据自助分析系统的研究与应用 Abstract: Through the research and application of the data self-help analysis platform under the distributed database architecture of an insurance company, this paper puts forward the idea of using distributed MPP database for mass data processing in the self-help analysis system, analyzes the open source distributed database GreenPlum emphatically, and through the function characteristics of ROLAP self-help analysis system, the application suggestions of system deployment are given. The research content has certain practical value to the distributed database in big data decision analysis system landing. Keywords: distributed database; BIG LAKE; ROLAP; data analysis 1 概述 近幾年,随着移动互联网的高速发展,大数据、云计算等新技术的不断推进,保险公司面临着海量的数据处理、复杂的数据结构分析、精细化业务需求、平台能力开放共享等多重压力,所以需要先进的技术,搭建公司全新的大数据处理平台及自助分析系统。国内外有一个非常火热的词汇“BIG LAKE”(数据湖泊),目的是不需要再对数据像以前那样经过定制,生成特定的业务报表,而是要保存原始数据,什么时候想分析就从原始数据上直接处理。依托云计算分布式数据库技术,处理、整合海量数据,实现原始清单粒度的ROLAP技术的自助分析系统,将会极大提高数据挖掘的价值,为企业经营提供决策、营销、服务建议的支撑工作。 2 云计算下的分布式数据库 2.1 SQL on Hadoop和MPP技术选型 数据仓库是数据分析类系统的核心,传统数仓一般采用完全共享的架构部署,随着存储数据的增长,性能负载将急剧增加,导致存储I/O瓶颈、系统应用加载时间长等问题。作为IT的最新演进成果,大数据分布式数据库技术已成为一系列可能改变未来生活和企业发展技术的基石,选型上有Hadoop(分布式系统基础架构)、MPP(Massive Parallel Processing,海量并行处理结构)架构两种技术架构。这两种都可处理大规模数据的并行计算,共同之处在于: (1)存储数据分布在多个节点服务器上。 (2)支持横向扩展来提高整个系统的计算能力和存储容量。 (3)采用分布式并行计算框架。 (4)支持X86开放集群架构。 但在数据存储、计算方法、效率、功能上,也存在明显差异: (1)MPP按照关系数据库行列表方式存储数据(有模式),Hadoop按照文件切片方式分布式存储(无模式)。 (2)数据分布机制不同,MPP采用Hash分布,计算节点和存储紧密耦合,而Hadoop按照文件切块后随机分配,节点和数据无耦合。MPP采用SQL并行查询计划,Hadoop采用Mapreduce框架。 (3)MPP数据库在计算并行度和算法上比Hadoop效率更高且灵活。在同样的环境下测试对比中,Mapreduce对单表的计算尚可,但对于复杂查询,如多表关联等,性能很差。 (4)MPP数据库采用SQL作为主要交互式语言,SQL语言简单易学,大幅简化了数据的操作和交互过程。而对MapReduce编程明显是困难的,这几年SQL-on-HADOOP技术大量涌现出来,这些技术包括:Hive、Impala、SPARK SQL等,虽然易用上有所提高,但仍与MPP数据库有较大差距。SQL-on-Hadoop大多不支持数据局部更新和删除功能(update/delete),基本上都缺少索引和存储过程等特征综上,MPP在更灵活,适合于统计分析一类的业务场景,结合我公司的自助分析系统的应用场景,选用开源的MPP软件GreenPlum作为系统的分析引擎。 2.2 开源分布式数据库GreenPlum GreenPlum(简称:

文档评论(0)

1亿VIP精品文档

相关文档