- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
大数据系统发展的技术路线--第1页
大数据系统发展的技术路线
自从大数据出来后,数据管理界发生了巨大的变化,技术驱动成为大
数据管理系统的一个主要变革力量。
传统的数据库管理系统以结构化数据为主,因此关系数据库系统
(RDBMS)可以一统天下满足各类应用需求。然而,大数据往往是
半结构化和非结构化数据为主,结构化数据为辅,而且各种大数据应
用通常需要对不同类型的数据内容检索、交叉比对、深度挖掘与综合
分析。面对这类应用需求,传统数据库无论在技术上还是功能上都难
以为继。因此,近几年出现了oldSQL、NoSQL与NewSQL并存的局
面。(这几个术语后面专题讨论)
总体上,按数据类型与计算方式的不同,面向大数据的管理系统与处
理采用不同的技术路线,大致可以分为四类。
1、MPP并行数据库和内存数据库
第一类技术路线主要面对的是大规模的结构化数据。针对这类大数据,
通常采用新型数据库集群。它们通过列存储或行列混合存储以及粗粒
度索引等技术,结合MPP(MassiveParallelProcessing)架构高效的分布
式计算模式,实现对PB量级数据的存储和管理。列存储数据库技术针
大数据系统发展的技术路线--第1页
大数据系统发展的技术路线--第2页
对数据分析的特点,能够对数据进行高性能的压缩,查询也只需访问
必要的列,节省了很多I/O,分析性能比传统行存储数据库有了很大的
提升(可以多达两个数据量级)。
同时,随着内存成本的降低、单机内存的增大,以SAPHANA为代表
的内存数据库也采用了列存储技术,支持更高性能的数据分析。这些
技术的发展,使得它们成为TB级别数据仓库的最先进技术,已经涵盖
了绝大多数OLAP市场,在企业分析类应用领域已获得广泛应用。
然而,MPP并行数据库和内存数据库依赖昂贵的硬件配置,其中的很
多商业软件还有价格高昂的使用许可证,这些成本并不是每个公司都
能够承担或者愿意承担的;而开源大数据系统采用通用、廉价的硬件
设施,使得人们更容易尝试和使用这些系统,数据和业务迁移的成本
也更低。同时,以Hadoop为代表的开源大数据系统形成较大的社区之
后,就会有各种相关系统补充进来,构成生态圈,满足人们不同的需
求,具有非常好的开放性。因此,就出现了第二类以Hadoop为典型的
开源系统技术路线,并逐渐得到认可,并成为大数据分析的新宠儿。
2、基于Hadoop开源体系的大数据系统
第二类技术路线要面对的是半结构化和非结构化数据。应对这类应用
场景,基于Hadoop开源体系的系统平台更为擅长。它们通过对Hadoop
生态体系的技术扩展和封装,实现对半结构化和非结构化数据的存储、
大数据系统发展的技术路线--第2页
大数据系统发展的技术路线--第3页
管理、计算等功能。
目前,Hadoop、MapReduce这类分布式处理方式已经成为大数据处理
各环节的通用处理方法。Hadoop是一个由Apache基金会开发的大数
据分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,
轻松地在Hadoop上开发和运行处理大规模数据的分布式程序,充分利
用集群的威力高速运算和存储。Hadoop是一个数据管理系统,作为数据
分析的核心,汇集了结构化和非结构化的数据,这些数据分布在传统
的企业数据栈的每一层。Hadoop也是一个大规模并行处理框架,拥有
超级计算能力,定位于推动企业级应用的执行。Hadoop又是一个开源
社区,主要为解决大数据的问题提供工具和软件。虽然Hadoop提供了
很多功能,但仍然应该把它归类为多个组件组成的Hadoop生态圈,这
些组件包括数据存储、数据集成、数据处理和其他进行数据分析的专
文档评论(0)