大数据系统发展的技术路线.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

大数据系统发展的技术路线--第1页

大数据系统发展的技术路线

自从大数据出来后,数据管理界发生了巨大的变化,技术驱动成为大

数据管理系统的一个主要变革力量。

传统的数据库管理系统以结构化数据为主,因此关系数据库系统

(RDBMS)可以一统天下满足各类应用需求。然而,大数据往往是

半结构化和非结构化数据为主,结构化数据为辅,而且各种大数据应

用通常需要对不同类型的数据内容检索、交叉比对、深度挖掘与综合

分析。面对这类应用需求,传统数据库无论在技术上还是功能上都难

以为继。因此,近几年出现了oldSQL、NoSQL与NewSQL并存的局

面。(这几个术语后面专题讨论)

总体上,按数据类型与计算方式的不同,面向大数据的管理系统与处

理采用不同的技术路线,大致可以分为四类。

1、MPP并行数据库和内存数据库

第一类技术路线主要面对的是大规模的结构化数据。针对这类大数据,

通常采用新型数据库集群。它们通过列存储或行列混合存储以及粗粒

度索引等技术,结合MPP(MassiveParallelProcessing)架构高效的分布

式计算模式,实现对PB量级数据的存储和管理。列存储数据库技术针

大数据系统发展的技术路线--第1页

大数据系统发展的技术路线--第2页

对数据分析的特点,能够对数据进行高性能的压缩,查询也只需访问

必要的列,节省了很多I/O,分析性能比传统行存储数据库有了很大的

提升(可以多达两个数据量级)。

同时,随着内存成本的降低、单机内存的增大,以SAPHANA为代表

的内存数据库也采用了列存储技术,支持更高性能的数据分析。这些

技术的发展,使得它们成为TB级别数据仓库的最先进技术,已经涵盖

了绝大多数OLAP市场,在企业分析类应用领域已获得广泛应用。

然而,MPP并行数据库和内存数据库依赖昂贵的硬件配置,其中的很

多商业软件还有价格高昂的使用许可证,这些成本并不是每个公司都

能够承担或者愿意承担的;而开源大数据系统采用通用、廉价的硬件

设施,使得人们更容易尝试和使用这些系统,数据和业务迁移的成本

也更低。同时,以Hadoop为代表的开源大数据系统形成较大的社区之

后,就会有各种相关系统补充进来,构成生态圈,满足人们不同的需

求,具有非常好的开放性。因此,就出现了第二类以Hadoop为典型的

开源系统技术路线,并逐渐得到认可,并成为大数据分析的新宠儿。

2、基于Hadoop开源体系的大数据系统

第二类技术路线要面对的是半结构化和非结构化数据。应对这类应用

场景,基于Hadoop开源体系的系统平台更为擅长。它们通过对Hadoop

生态体系的技术扩展和封装,实现对半结构化和非结构化数据的存储、

大数据系统发展的技术路线--第2页

大数据系统发展的技术路线--第3页

管理、计算等功能。

目前,Hadoop、MapReduce这类分布式处理方式已经成为大数据处理

各环节的通用处理方法。Hadoop是一个由Apache基金会开发的大数

据分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,

轻松地在Hadoop上开发和运行处理大规模数据的分布式程序,充分利

用集群的威力高速运算和存储。Hadoop是一个数据管理系统,作为数据

分析的核心,汇集了结构化和非结构化的数据,这些数据分布在传统

的企业数据栈的每一层。Hadoop也是一个大规模并行处理框架,拥有

超级计算能力,定位于推动企业级应用的执行。Hadoop又是一个开源

社区,主要为解决大数据的问题提供工具和软件。虽然Hadoop提供了

很多功能,但仍然应该把它归类为多个组件组成的Hadoop生态圈,这

些组件包括数据存储、数据集成、数据处理和其他进行数据分析的专

文档评论(0)

***** + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

认证主体社旗县兴中文具店(个体工商户)
IP属地河南
统一社会信用代码/组织机构代码
92411327MAD627N96D

1亿VIP精品文档

相关文档