网站大量收购独家精品文档,联系QQ:2885784924

大数据技术应用实施方案建议.ppt

  1. 1、本文档共20页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据技术应用实施方案建议

大数据技术应用实施方案建议 信息技术管理部 2013年6月 1 目录 我行新一代数据集成平台能力要求 业内大数据技术的特性及应用研究 我行大数据技术的应用策略 2 新一代管理分析类应用需求 3 运营与信息安全 运行日志存储与分析 安全日志存储与分析 新一代管理分析类应用对于大数据处理分析技术提出了高要求 新一代数据集成平台数据特点与挑战 4 Volume 数量大 数据内容丰富(账户信息、账户明细、流水信息等) 数据存储周期长(监管要求保存20年) PB级的海量数据 Variety 种类多 数据类型多样,包括结构化、半结构化、非结构化数据,如交易数据、日志数据、影像视频数据等等 Velocity 速度快 近实时数据处理(即席数据分析) 实时访问(如历史数据查询) 流式数据计算(如反欺诈) 大数据时代,技术面临着Volume、Variety、Velocity 3V的挑战 目录 我行新一代数据集成平台能力要求 业内大数据技术的特性及应用研究 技术特性研究 技术应用研究 我行大数据技术的应用策略 5 大数据技术一览图 6 大数据技术主要包含应用领域(如商务智能)、基础设施领域(结构化数据库技术、分析型数据技术等)和基础技术领域的各种相关技术。 重点调研的相关大数据存储技术产品调研 基于商用硬件的分布式数据库技术 HADOOP技术 对于大数据技术、产品的调研分两类进行,即关系型数据库与非关系型技术,前者以基于X86的MPP技术为代表,后者以HADOOP技术为代表 大数据技术特性研究结论 8 分析维度 X86 MPP HADOOP 数据特性 仅支持结构化数据 支持非结构化、半结构化、结构化数据 扩展性 可扩展至数百节点 可扩展至数千个节点 数据可靠性 每份数据只有一个备份 每份数据可有多个备份 产品成熟度 介于传统关系型数据库与HADOOP之间 新技术,产品与技术均不成熟 易开发性 相对容易 与传统数据库差异较大,开发复杂 运维管理 缺少统一的运维管理工具 复杂,缺少统一的运维管理工具 人员技能要求 一般,仅需熟悉传统关系型数据库 高,需要对产品、技术及程序设计有深入理解 基于X86的MPP技术与传统分析型数据库的差异不大,但是提供了良好的扩展性,适合替代现有技术进行关系型数据的分析 HADOOP技术支持的数据类型多,扩展性强,适合海量非结构化的数据分析,但技术不成熟,需逐步试点 目录 我行新一代数据集成平台能力要求 业内大数据技术的特性及应用研究 技术特性研究 技术应用研究 我行大数据技术的应用策略 9 美国银行大数据技术应用情况 10 技术类型 产品 系统/机柜数 集群容量 (PB) 数据量 (PB) 应用领域 使用案例 专有一体机 Teradata 24 5 3.1 数据仓库 企业/集中式数据仓库 Netezza 80+ 2.8 1.1 数据集市 OLAP Exadata 10+ 1 0.08 数据集市(OLAP 和 OLTP混合) 全球人力资源部、CRC(客户报告中心:22TB)、AMT 基于商用硬件的分布式数据库 Vertica 2 0.57 0.34 数据集市 OLAP Hadoop技术 Cloudera Hadoop 若干 1.6 1.6 ETL 集团DW 、电子商务、信用风险 数据暂存与归档 银行卡系统过期数据归档; 集团数据仓库数据归档 信息安全 数据库、防火墙、应用程序等日志存储与分析 风险分析 定量风险技术 (最大的Hadoop应用集群,173台机器,1.6PB未压缩数据)、 欺诈检测 沙箱分析   美国银行在数据集市领域大量使用X86 MPP技术,HADOOP主要用于ETL、数据归档、日志分析及风险分析等应用 美国银行未来大数据技术应用 11 产品 美国银行的最佳定位 战略性产品 IBM Netezza 纯分析性的工作量的首选解决方案。高性能和高扩展性。费用较低,比 Exadata 或 Teradata 更容易 进行管理。并发性方面的局限,使其适用于数据市场,或可能适合小型部门的数据仓库。 是 Oracle Exadata 适用于 I/O 要求极为严苛并需要 20 TB 以上的交易/分析混合工作量。能够处理同一系统中的多种工 作量。也可视为适用于 20 TB 以上的分析数据库(目前运行的是标准 Oracle 数据库),因为它比 Netezza 更容易移植 是 Vertica (HP) 作为一种新兴的主要候选方案,可替代 Netezza 和 Exadata,为大型数据市场或部门数据仓库(20 TB 以上)提供基于商品的列式数据库。通过创新的写优存储和读优存储以及经验证的 PB 级别,扩展 架构。在美国银行进行了两项重大且成功的实施。 是 Sybase IQ (SAP) 列存储的首个商业实施。稳定、成

文档评论(0)

wangxue1 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档