- 9
- 0
- 约3.23千字
- 约 4页
- 2021-06-28 发布于四川
- 举报
基于分布式数据库的ROLAP数据自助分析系统的研究与应用
Abstract: Through the research and application of the data self-help analysis platform under the distributed database architecture of an insurance company, this paper puts forward the idea of using distributed MPP database for mass data processing in the self-help analysis system, analyzes the open source distributed database GreenPlum emphatically, and through the function characteristics of ROLAP self-help analysis system, the application suggestions of system deployment are given. The research content has certain practical value to the distributed database in big data decision analysis system landing.
Keywords: distributed database; BIG LAKE; ROLAP; data analysis
1 概述
近幾年,随着移动互联网的高速发展,大数据、云计算等新技术的不断推进,保险公司面临着海量的数据处理、复杂的数据结构分析、精细化业务需求、平台能力开放共享等多重压力,所以需要先进的技术,搭建公司全新的大数据处理平台及自助分析系统。国内外有一个非常火热的词汇“BIG LAKE”(数据湖泊),目的是不需要再对数据像以前那样经过定制,生成特定的业务报表,而是要保存原始数据,什么时候想分析就从原始数据上直接处理。依托云计算分布式数据库技术,处理、整合海量数据,实现原始清单粒度的ROLAP技术的自助分析系统,将会极大提高数据挖掘的价值,为企业经营提供决策、营销、服务建议的支撑工作。
2 云计算下的分布式数据库
2.1 SQL on Hadoop和MPP技术选型
数据仓库是数据分析类系统的核心,传统数仓一般采用完全共享的架构部署,随着存储数据的增长,性能负载将急剧增加,导致存储I/O瓶颈、系统应用加载时间长等问题。作为IT的最新演进成果,大数据分布式数据库技术已成为一系列可能改变未来生活和企业发展技术的基石,选型上有Hadoop(分布式系统基础架构)、MPP(Massive Parallel Processing,海量并行处理结构)架构两种技术架构。这两种都可处理大规模数据的并行计算,共同之处在于:
(1)存储数据分布在多个节点服务器上。
(2)支持横向扩展来提高整个系统的计算能力和存储容量。
(3)采用分布式并行计算框架。
(4)支持X86开放集群架构。
但在数据存储、计算方法、效率、功能上,也存在明显差异:
(1)MPP按照关系数据库行列表方式存储数据(有模式),Hadoop按照文件切片方式分布式存储(无模式)。
(2)数据分布机制不同,MPP采用Hash分布,计算节点和存储紧密耦合,而Hadoop按照文件切块后随机分配,节点和数据无耦合。MPP采用SQL并行查询计划,Hadoop采用Mapreduce框架。
(3)MPP数据库在计算并行度和算法上比Hadoop效率更高且灵活。在同样的环境下测试对比中,Mapreduce对单表的计算尚可,但对于复杂查询,如多表关联等,性能很差。
(4)MPP数据库采用SQL作为主要交互式语言,SQL语言简单易学,大幅简化了数据的操作和交互过程。而对MapReduce编程明显是困难的,这几年SQL-on-HADOOP技术大量涌现出来,这些技术包括:Hive、Impala、SPARK SQL等,虽然易用上有所提高,但仍与MPP数据库有较大差距。SQL-on-Hadoop大多不支持数据局部更新和删除功能(update/delete),基本上都缺少索引和存储过程等特征综上,MPP在更灵活,适合于统计分析一类的业务场景,结合我公司的自助分析系统的应用场景,选用开源的MPP软件GreenPlum作为系统的分析引擎。
2.2 开源分布式数据库GreenPlum
GreenPlum(简称:
您可能关注的文档
- 党支部工作总结(范本)与党支部工作总结合集.docx
- 专项施工方案(人工挖孔).docx
- 辽宁锦州万佛堂石窟导游词_导游词.docx
- 关于农村税费改革中存在的问题与思考.docx
- 家长寄语怎么写.docx
- 绿色出行倡议书模板汇编多篇.docx
- 关于讲座主持词范文集合多篇.docx
- 2021志愿者服务总结心得体会大全.docx
- 浅谈蜀锦市场现状及发展策略.docx
- 关于电子政务中数据集成的探讨.docx
- 2025年北京市门头沟区中考一模英语试题.docx
- 2025年北京市门头沟区中考二模英语试题.docx
- 2025年北京市丰台区中考二模英语试题.docx
- 2025年中考英语考前冲刺模拟卷 (北京专用) 解析卷.docx
- 2025年中考英语考前冲刺模拟卷 (北京专用) 原卷.docx
- 2025年肩颈按摩仪行业社媒趋势数据分析.docx
- 2025年人身险行业信用回顾与2026年展望.docx
- 合同法买卖合同培训课件.ppt
- 2025年全球食物系统与SDG研究报告-食物供给、食者健康、生态平衡的整体治理.docx
- 2025下半年四川乐山市川投峨眉铁合金(集团)有限责任公司对考前自测高频考点模拟试题最新.docx
原创力文档

文档评论(0)