- 1、本文档共20页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据技术应用实施方案建议
大数据技术应用实施方案建议
信息技术管理部
2013年6月
1
目录
我行新一代数据集成平台能力要求
业内大数据技术的特性及应用研究
我行大数据技术的应用策略
2
新一代管理分析类应用需求
3
运营与信息安全
运行日志存储与分析
安全日志存储与分析
新一代管理分析类应用对于大数据处理分析技术提出了高要求
新一代数据集成平台数据特点与挑战
4
Volume
数量大
数据内容丰富(账户信息、账户明细、流水信息等)
数据存储周期长(监管要求保存20年)
PB级的海量数据
Variety
种类多
数据类型多样,包括结构化、半结构化、非结构化数据,如交易数据、日志数据、影像视频数据等等
Velocity
速度快
近实时数据处理(即席数据分析)
实时访问(如历史数据查询)
流式数据计算(如反欺诈)
大数据时代,技术面临着Volume、Variety、Velocity 3V的挑战
目录
我行新一代数据集成平台能力要求
业内大数据技术的特性及应用研究
技术特性研究
技术应用研究
我行大数据技术的应用策略
5
大数据技术一览图
6
大数据技术主要包含应用领域(如商务智能)、基础设施领域(结构化数据库技术、分析型数据技术等)和基础技术领域的各种相关技术。
重点调研的相关大数据存储技术产品调研
基于商用硬件的分布式数据库技术
HADOOP技术
对于大数据技术、产品的调研分两类进行,即关系型数据库与非关系型技术,前者以基于X86的MPP技术为代表,后者以HADOOP技术为代表
大数据技术特性研究结论
8
分析维度
X86 MPP
HADOOP
数据特性
仅支持结构化数据
支持非结构化、半结构化、结构化数据
扩展性
可扩展至数百节点
可扩展至数千个节点
数据可靠性
每份数据只有一个备份
每份数据可有多个备份
产品成熟度
介于传统关系型数据库与HADOOP之间
新技术,产品与技术均不成熟
易开发性
相对容易
与传统数据库差异较大,开发复杂
运维管理
缺少统一的运维管理工具
复杂,缺少统一的运维管理工具
人员技能要求
一般,仅需熟悉传统关系型数据库
高,需要对产品、技术及程序设计有深入理解
基于X86的MPP技术与传统分析型数据库的差异不大,但是提供了良好的扩展性,适合替代现有技术进行关系型数据的分析
HADOOP技术支持的数据类型多,扩展性强,适合海量非结构化的数据分析,但技术不成熟,需逐步试点
目录
我行新一代数据集成平台能力要求
业内大数据技术的特性及应用研究
技术特性研究
技术应用研究
我行大数据技术的应用策略
9
美国银行大数据技术应用情况
10
技术类型
产品
系统/机柜数
集群容量 (PB)
数据量 (PB)
应用领域
使用案例
专有一体机
Teradata
24
5
3.1
数据仓库
企业/集中式数据仓库
Netezza
80+
2.8
1.1
数据集市
OLAP
Exadata
10+
1
0.08
数据集市(OLAP 和 OLTP混合)
全球人力资源部、CRC(客户报告中心:22TB)、AMT
基于商用硬件的分布式数据库
Vertica
2
0.57
0.34
数据集市
OLAP
Hadoop技术
Cloudera Hadoop
若干
1.6
1.6
ETL
集团DW 、电子商务、信用风险
数据暂存与归档
银行卡系统过期数据归档;集团数据仓库数据归档
信息安全
数据库、防火墙、应用程序等日志存储与分析
风险分析
定量风险技术 (最大的Hadoop应用集群,173台机器,1.6PB未压缩数据)、欺诈检测
沙箱分析
美国银行在数据集市领域大量使用X86 MPP技术,HADOOP主要用于ETL、数据归档、日志分析及风险分析等应用
美国银行未来大数据技术应用
11
产品
美国银行的最佳定位
战略性产品
IBM
Netezza
纯分析性的工作量的首选解决方案。高性能和高扩展性。费用较低,比 Exadata 或 Teradata 更容易进行管理。并发性方面的局限,使其适用于数据市场,或可能适合小型部门的数据仓库。
是
Oracle Exadata
适用于 I/O 要求极为严苛并需要 20 TB 以上的交易/分析混合工作量。能够处理同一系统中的多种工作量。也可视为适用于 20 TB 以上的分析数据库(目前运行的是标准 Oracle 数据库),因为它比 Netezza 更容易移植
是
Vertica (HP)
作为一种新兴的主要候选方案,可替代 Netezza 和 Exadata,为大型数据市场或部门数据仓库(20 TB 以上)提供基于商品的列式数据库。通过创新的写优存储和读优存储以及经验证的 PB 级别,扩展架构。在美国银行进行了两项重大且成功的实施。
是
Sybase IQ (SAP)
列存储的首个商业实施。稳定、成
文档评论(0)