集团大数据平台系统架构设计整体方案.doc

集团大数据平台系统架构设计整体方案.doc

  1. 1、本文档共58页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
集团大数据平台系统架构设计整体方案 总体设计目标 建立集团的企业级数据中心,实现集团数据资源(结构化、半结构化和非结构化数据)的归集、整理、加工和分析,并利用大数据相关技术及数据分析挖掘工具,建立数据应用模型,为全网提供决策支持、产品创新、交叉营销、流程优化、服务支撑以及风险管控等服务,有效地挖掘数据的价值,实现集团数据资源的“共享、共用、共赢”。 总体设计原则 标准化:本系统采用的技术架构均遵循网络协议和传输标准的要求,相关开源及原创技术均符合国际技术组织条款规范。提供文档标准化,满足GB8567-1988、GB/T11457-89的行业标准; 可扩展性:由于用户以后的需求会不断发展,使用人数将随之扩大,业务压力不断上升,只要横向扩展增加服务器台数,不用添加其它附加设备,以保证用户的原投资被利用。 可用性和可靠性:我们的方案在充分考虑用户实际情况的基础上,选用F5作为负载均衡器,采用了Weblogic作为Web应用容器,操作系统采用红旗版Linux,从而减少了其它因素造成的故障。 易用性:该系统使用界面良好,用户无需安装客户端软件,只需通过IE 浏览器就可进行实时操作,同时系统架构设计优良,可以很方便进行系统升级。 开发式结构:该系统内置“数据交换适配平台”可以与第三方系统相融合,可以读取第三方系统的相关数据,可以为第三方系统提供其需要的相关数据,提供标准的Web Service接口,具有开放式结构。 完善和可靠性:具有设计独到的功能使用及数据访问权限控制,保证统一、规范管理,支持3DES和RSA加密技术,使数据存储和传输安全牢不可破。系统具有错误故障日志记录功能,便于快速诊断定位问题。 实时性:该系统支持负载均衡技术,及时响应多人实时并发操作。 先进性:基于统一的整体架构,采用先进的、成熟的、可靠的技术与软硬件平台,保证数据仓库系统易扩展、易升级、易操作、易维护等特性。 高效性:线性扩展的TDH的数据仓库平台,保证了ETL时间的窗口以及查询效率,数据抽取的特殊性,通常在夜间业务稀少的情况下进行数据抽取,减少了对其他系统的影响。 正确性:数据质量贯穿数据仓库系统建设的每个环节,数据仓库系统通过合理的数据质量管理方法论保证数据质量。 案例分析建议 中国联通大数据平台 联通集团公司按照工信部的的要求(见《工业和信息化部、国务院国有资产监督管理委员会关于开展基础电信企业网络与信息安全责任考核有关工作的指导意见》和《工业和信息化部办公厅关于印发2013年省级基础电信企业网络与信息安全工作考核要点与评分标准的通知》),于2013年启动IDC/ISP日志留存系统的建设,其中集团侧的集中留存系统软件由联通研究院负责开发。为了满足海量数据条件下的处理效率的要求,集团侧集中留存系统软件除研究院自主开发外,基于Hadoop的数据存储部分计划进行外包,通过软件技术服务,来进行系统优化和维护支撑。 项目概述 目前,联通集团公司全国IDC出口的访问日志预计两个月产生的数据量约20PB至30PB,每秒写入大概6千万至7千万条数据,在如此巨大的数据量下,原有Teradata和Oracle已经不能满足快速读写的性能要求了。同时为了实现快速检索以及分析处理的性能要求,需要引入分布式大数据平台,利用分布式文件存储系统,提高数据的存储入库能力,利用Hadoop/HBase架构克服磁盘I/O瓶颈导致的数据读写延迟;基于联通IDC出口流量详单数据进行快速存储和检索以及分析处理,同样要求数据处理平台具备快速读写的高性能。 中国联通公司全国IDC日至留存项目对分布式集群的要求非常高: 日志数据量非常大,存储的总日志数据量将达到20PB-30PB。 要求集群的数据吞吐量非常高,每秒的日志写入量将达到6千万至七千万条,未来还会增长更多,每秒的数据写入量为上百GB 数据访问的性能要求非常高,对日志的分析需要分钟级、甚至秒级返回结果。 数据计算量大,日常日志扫描任务就需要扫描上百TB,甚至上PB的数据。 集群的扩展性要求非常高,能够灵活扩展至上千个节点的集群。 根据此次中国联通的需求,以及项目的特点和技术要求,推荐采用商用的、成熟的、基于星环Transwarp Data Hub的企业级大数据平台套件,构建中国联通IDC日志留存平台的基础大数据平台,用于满足海量日志的高速存储、计算、分析、挖掘的需求。 项目实施情况 星环科技通过协助联通集团搭建基于星环Transwarp Data Hub的大数据平台,成功为联通集团搭建了信息安全管理系统大数据存储处理子系统项目所采用的平台系统。分布式大数据平台采用Hadoop/HBase架构,能够支持对联通IDC出口流量详单的存储和快速检索和分析处理。 系统拓扑: 图4-1联通大数据平台技术架构 整个集群由FTP集群和Hadoop集群组成,其中:

文档评论(0)

阿宝 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档