- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2015年·第1期 技术应用
栏目编辑:梁丽雯 E-mail:liven_01@163.com Research
大数据处理平台的初步探索
■ 中国农业银行广东省分行 李海龙 莫宏庆 曾俊源
随着金融业务的高速发展,数据成倍增长,传统的数据处理模式已无法满足大数据处理的紧迫需求。
摘 要:
为此,中国农业银行广东省分行(以下简称“广东农行”)对大数据处理技术Hadoop和GBase进行初步分析比较后,
引入GBase 8a MPP Cluster并搭建了大数据处理平台,对其工作进行理论分析和应用实践,为数据仓库、数据挖
掘、互联网金融等领域的应用提供借鉴。
金融科技;大数据;GBase;经营分析;Hadoop
关键词:
一、引言 处理。到目前为止,没有一个统一的多维度的大数据平
大数据具有数据量巨大、数据结构多样化(结构 台提供数据提取和分析应用功能,没有一个全行的统
化、半结构化和非结构化)、处理快速和价值密度低四大 一客户视图,这使得对大数据信息进行汇总和分析显得
特性,在一定时间内,无法用传统的数据库软件工具对其 十分迫切。
内容进行抓取、管理和分析处理。这些特性使人们在对
大数据进行处理时必须采用全新的思维方式:要全体不 二、Hadoop产品特性
要抽样,要效率不要绝对精确,要相关不要因果。 (一)Hadoop产品架构
大数据处理技术在国外主要以Hadoop为代表, Hadoop是一个分布式系统基础架构,用户可以在
Hadoop是一个能够对大数据进行分布式处理的软件框 不了解分布式底层细节的情况下,开发分布式程序。
架,主要包括两部分:Hadoop分布式文件系统(HDFS, Hadoop主要包含以下项目:MapReduce,分布式数据处
Hadoop Distributed File System)和MapReduce编程模 理模型和执行环境,运行于大型商用机集群;HDFS,
型。国内的厂商如南大通用公司推出了GBase 8a产品, 分布式文件系统,运行于大型商用机集群;Zookeeper,
也能对大数据进行分布式处理。 一个分布式、可用性高的协调服务,提供分布式锁之类
广东农行传统的处理方式是将总行下发的业务数 的基本服务,用于构建分布式应用;HBase,一个分布
据加载到两个平台:HP版和PC集群版的广东农行基础 式、按列存储数据库,使用HDFS作为底层存储,同时
数据平台,作为数据仓库为应用分析提供基础数据。这 支持MapReduce的批量式计算和点查询(随机读取);
两个平台的后台数据库采用的是Sybase IQ,但由于业务 Hive,一个分布式、按列存储的数据仓库,管理HDFS中
数据的快速增长,这两个平台的服务器已不堪重负,经 存储的数据,并提供基于SQL的查询语言,用以查询数
常出现系统拥塞的状况,经常需要清理服务器上的历 据等。Hadoop的底层核心主要由两部分组成:HDFS和
史数据,以保持系统正常运行。 MapReduce,HDFS负责对数据的内容进行控制和管理,
农总行在BoEing系统上线后推出了分行基础数据 MapReduce负责分布式运算。
平台(IDFB),引入了ODS,BDS和ADS三层数据平台架 (二)Hadoop核心技术
构,在一定程度上满足了各分行对底层数据进行提取和 HDFS分布式文件系统的数据以Block(数据块)的
分析的需求,但该平台侧重于对公业务和贷款业务的 形式分布在
文档评论(0)