大数据技术-发展趋势的_20131017终稿.docx

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据技术发展趋势的报告大数据技术技术现状大数据技术概述大数据(Big Data)是近来的一个技术热点,根据业界定义,其具有三个显著特点:Volume(大容量):所涉及的数据量在TB和PB级;Velocity(快速访问):通常是对时间敏感的,大数据必须在企业内快速使用,以最大限度地发挥其商业价值的;Variety(多样化):各种大数据结构化数据,包括非结构化数据的所有品种以外的延伸:文本,音频,视频,点击流,日志文件等等。大数据(Big Data)作为一个专有名词成为热点,主要应归功于近年来互联网、云计算、移动和物联网的迅猛发展。针对于金融行业,目前我行核心系统每天的业务量在1.1亿笔左右,而且多种渠道接入,要存储与处理的数据量比以往突飞猛进,而业务发展对数据处理的实时性、有效性又提出了更高要求,传统的常规技术手段难以应付。在这种情况下,IT业界纷纷研发和采用一批新技术,主要包括分布式缓存、基于MPP的分布式数据库、分布式文件系统、各种NoSQL分布式存储方案等。根据银行的数据处理特点,我们着重调研了基于MPP的分布式数据库、分布式文件系统两种技术。MPP分布式数据库系统,分布式数据库的典型产品有Teradata、EMC Greenplum、HP Vertica 、Teradata Aster Data等,显著特点是基于MPP(海量并行处理)和Shared-Nothing(完全无共享)架构,但其中EMC Greenplum、HP Vertica、Teradata Aster Data基于开源软件和x86商用硬件设计,Teradata 是专用软硬件。分布式文件系统,其典型代表是Google的GFS和HDFS。GFS是基于大量安装有Linux操作系统的普通PC构成的集群系统,整个集群系统由一台Master(通常有几台备份)和若干台TrunkServer构成。GFS中文件备份成固定大小的Trunk分别存储在不同的TrunkServer上,每个Trunk有多份(通常为3份)拷贝,也存储在不同的TrunkServer上。Master负责维护GFS中的 Metadata,即文件名及其Trunk信息。客户端先从Master上得到文件的Metadata,根据要读取的数据在文件中的位置与相应的TrunkServer通信,获取文件数据。根据Google 发表的论文,在Apache 基金的扶持下,诞生了开源的分布式文件系统HDFS和MapReduce并行处理框架,形成了以HDFS和MapReduce为基础,提供了更具有友好的应用性的HIVE、HBASE的整个HADOOP生态体系(本文之后简称为:HADOOP)。X86开放平台的MPP数据库技术发展现状基于关系型数据库的机制,采用通用的X86 PC-SERVER硬件设备,其主要有 EMC Greenplum 、HP Vertica 、Aster Data产品。下图是Gartner 2012年发布的关于处理海量数据的数据库技术:EMC Greenplum技术架构: Master Node 的功能: 建立与客户端的连接和管理SQL的解析并形成执行计划执行计划向Segment的分发收集Segment的执行结果Master不存储应用业务数据,只存储数据字典Segment Node 的功能业务数据的存储和存取用户查询SQL的执行IBM Infosphere WarehouseInfosphere Warehouse是IBM推出的一套基于DB2的MPP数据库解决方案,支持基于X86平台的扩展。其体系架构如下所示:其核心是DB2的DPF(Data Partition Feature),即数据分区特性。数据库分区是数据库的一部分,它由自己的数据、索引、配置文件和事务日志组成。分区数据库是有两个或更多个分区的数据库。于是,表可以存储在一个或多个数据库分区中。使用与每个数据库分区相关联的处理器来满足表请求。数据检索和更新请求被自动分解成子请求,并在适用的数据库分区中并行执行。其非共享体系的架构特点如下:在数据库一级划分为多个分区,既数据库分区数据库分区运行在各个节点上分个数据库分区具有自己的资源 (Engine, LogMg., LockMg., Caches, etc.) 数据库协调所有分区进行并行处理对用户和应用来看,是一个单独的系统。HP VerticaVertica是专门面向海量数据实时分析的全新架构,其整体架构如下图所示:Vertica采用高性能的高性能列式存储和计算技术,支持主动数据压缩,高级分析,具有弹性扩展以及自定义外部扩展等特性,是支撑大数据实时分析的平台。TD AsterDataAster Data的技术架构如下图所示,主要由Queen Server、Worker Server、LoaderServ

文档评论(0)

1112111 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档