MPP数据库将支撑起大数据时代.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

型MPP数据库将支撑起大数据时代

大数据这个领域过去5年进展很快、热度很高,但是总的来说目前还在起步阶段。本次研讨会我会先谈谈数据,以及大数据对数据处理技术的压力,然后为大家共享一下为什么这几年数据处理技术上的创很多。

数据价值的觉察与使用

在大数据的4个V中,最显著的特征应当是Value(价值)。不管数据多大,是什么构造,来源如何,能给使用者带来价值的数据是最重要的数据。

我跟数据打了20多年的交道,从来没感觉到搞数据的地位有今日这么高。整个社会对数据的认知变了,大数据最大的奉献至少是让社会各个层面开头生疏到数据的重要性,包括最高领导和底层的老百姓。

目前大家根本达成共识:数据像石油、煤一样是贵重的资产,其内在的价值格外巨大。另外一个显著的奉献无疑是互联网企业对于数据的奇异使用和价值表达。

数据处理技术的回忆

互联网的数据“大”是不争的事实,现在分析一下数据处理技术面临的挑战。目前除了互联网企业外,数据处理领域还是传统关系型数据库(RDBMS)的天下。传统RDBMS的核心设计思想根本上是30年前形成的。过去30年脱颖而出的无疑是Oracle公司。全世界数据库市场根本上被Oracle,IBM/DB2,Microsoft/SQLServer垄断,其他几家市场份额都比较小。SAP去年收购了Sybase,也想成为数据库厂商。有份量的独立数据库厂商现在就剩下Oracle和Teradata。开源数据库主要是MySQL,PostgreSQL,除了互联网领域外,其他行业用的很少。这些数据库当年主要是面对OLTP交易型需求设计、开发的,是用来开发人时机话应用为主的。这些传统数据库底层的物理存储格式都是行存储,比较适合数据频繁的增删改操作,但对于统计分析类的查询,行存储其实效率很低。在这些成熟的数据库产品中,有2个典型特例:一个是Teradata,一个是SybaseIQ。

Teradata一开头就使用MPP(MassiveParallelProcessing)架构,以软硬一体机的产品方式供给应客户,其定位是高端客户的数据仓库和决策分析系统,Teradata在全世界的客户只有几千个。在这个数据分析高端市场上,Teradata始终是老大,在数据分析技术上Oracle和IBM打不过Teradata。SybaseIQ是一款最早基于列存储的关系型数据库产品,其定位跟Teradata类似,不过是以软件方式销售的。Teradata和SybaseIQ在数据分析应用上的性能其实都比Oracle,DB2等要普遍好。

数据增长加速,数据多样化,大数据时代降临

假设说现在是大数据时代了,其实是数据来源发生了质的变化。在互联网消灭之前,数据主要是人时机话方式产生的,以构造化数据为主。所以大家都需要传统的RDBMS来治理这些数据和应用系统。那时候的数据增长缓慢、系统都比较孤立,用传统数据库根本可以满足各类应用开发。

互联网的消灭和快速进展,尤其是移动互联网的进展,加上数码设备的大规模使用,今天数据的主要来源已经不是人时机话了,而是通过设备、效劳器、应用自动产生的。传统行业的数据同时也多起来了,这些数据以非构造、半构造化为主,而真正的交易数据量并不大,增长并不快。机器产生的数据正在几何级增长,比方基因数据、各种用户行为数据、定位数据、图片、视频、气象、地震、医疗等等。

所谓的“大数据应用”主要是对各类数据进展整理、穿插分析、比对,对数据进展深度挖掘,对用户供给自助的即席、迭代分析力量。还有一类就是对非构造化数据的特征提取,以及半构造化数据的内容检索、理解等。

传统数据库对这类需求和应用无论在技术上还是功能上都几乎束手无策。这样其实就给类似Hadoop的技术和平台供给了很好的进展时机和空间。互联网公司自然就选择能支撑自己业务的开源技术了,反过来又推动了开源技术的快速进展。

的数据处理技术、产品和创

为了应对数据处理的压力,过去十年间在数据处理技术领域有了很多的创和进展。除了面对高并发、短事务的OLTP内存数据库外(Altibase,Timesten),其他的技术创和产品都是面对数据分析的,而且是大规模数据分析的,也可以说是大数据分析的。

在这些面对数据分析的创和产品中,除了基于Hadoop环境下的各种NoSQL外,还有一类是基于SharedNothing架构的面对构造化数据分析的型数据库产品(可以叫做NewSQL),如:Greenplum(EMC收购),Vertica(HP收购),Asterdata(TD收购),以及南大通用在国内开发的GBase8aMPCluster等。目前可以看到的类似开源和商用产品到达几十个,而且还有的产品不断涌出

文档评论(0)

176****1855 + 关注
实名认证
内容提供者

注册安全工程师持证人

铁路、地铁、高速公路、房建及风电等相关领域安全管理资料

领域认证该用户于2023年05月18日上传了注册安全工程师

1亿VIP精品文档

相关文档