2014年-采用云计算技术构建大型数据仓库平台探讨.docxVIP

2014年-采用云计算技术构建大型数据仓库平台探讨.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1? 大型数据仓库建设面临的挑战 ??????? 随着市场竞争加剧,电信运营商需要挖掘更多的经营商机,同时全面掌握企业运营成本,这使得对数据分析系统的重视程度大大提高。数据分析系统在电信运营商中已经有多年的建设历程,早期被称为经营分析系统,主要面向地(市)级、省级公司进行业务运营数据的加工、处理,向各级人员提供数据报表、查询等功能。随着近年移动用户的规模高速增长,话务量大幅增加,对经营分析系统提出了更为广泛和精细的服务要求。系统所分析的数据范围从初期只有业务支撑系统的数据源,向管理信息系统、用户上网行为日志等其他领域扩展,所承载的业务功能亦更加复杂,实质上系统已逐步具备企业级数据中心的能力雏形。图1是典型数据分析系统的基本体系架构。 ??????? 从图1中可以看出,数据仓库平台作为整个系统的基础性平台,主要实现对源数据的收集、加工、处理、重构、存储,并对外提供数据服务、数据管控等工作。在现阶段数据仓库的工作量占据了整个系统工作量的70%,现有集中化建设的数据分析系统,其数据范围已经涵盖了业务支撑域、管理信息域的核心数据以及部分运营支撑域数据。随着系统互联的源系统逐步增多、数据范围增大,现有数据仓库所承载的数据规模由最初的TB级向PB级发展,在可预见的未来还将有更大的扩展。 ??????? 而现有数据仓库还有许多是采用主流的联机事务处理(OLTP)平台所使用的数据库产品,该类产品使用的是面向交易的处理机制,其基本特征是顾客的原始数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,库表规模一般不会超过TB级,主要用于客户关系管理系统、计费系统的建设。? ??????? 数据分析系统要对多张表中数亿条记录数据进行加工处理、数据分析和信息综合处理,是典型的联机分析处理(OLAP)平台,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果,其库表规模从TB级到PB级不等。 ??????? 电信运营商现有的数据分析系统每天从各层生产系统收集数亿条明细记录,加载到数据仓库中,采用传统数据库平台时仅入库1个环节就需要近5 h,如果稽核出数据质量问题就需要重传,则时间更长,为后面的数据加工处理留出的时间更少,形成结果的时间较长,如第一天的日报时间几乎到第二天下午下班前才能够提供,这与管理层的需求相差甚远。单从技术层面究其深层的原因,是盘阵的I/O速率在海量数据处理过程中形成了瓶颈,I/O并发处理能力不足。目前数据仓库平台硬件架构如图2所示。 ??????? 该硬件平台主机系统为高端UNIX主机,主机之间共享外部存储设备,为典型的对称多处理(SMP)架构。当能力不足时,扩容主机、增加CPU数量可以提高计算能力,但提高磁盘I/O就需要采用多台高端磁盘阵列分担读写操作,而主机扩容、增加存储的费用高昂,并且会造成数据库表的重构迁移,将会长时间暂停业务,这些都是使用者难以承受的因素。 2? 云计算技术的引入 ??????? 目前云计算技术方兴未艾,在电信运营商内部信息化建设方面已经形成对应的引入策略,其基本特征包括:形成私有云平台,满足资源的池化,能力可以快速伸缩。根据电信运营商对信息化系统的云化策略,适时引入x86分布式集群的大规模并行处理(MPP)架构,可以解决数据分析系统基础设施目前面临的主要困惑。? 2.1? SMP与MPP架构比较 ??????? SMP架构是指在一台主机上汇集了一组处理器(多CPU),各CPU之间共享内存、总线(见图3)。在这种架构中,1台主机同时由多个处理器运行操作系统的单一复本,并共享内存和其他资源。虽然同时使用多个CPU,但是从管理的角度来看,它们的表现就像1台单机一样。管理系统将任务队列对称地分布于多个CPU上,从而极大地提高了整个系统的数据处理能力。所有的处理器都可以平等地访问内存、I/O和外部中断等资源。在对称多处理系统中,系统资源被系统中所有CPU共享,工作负载能够均匀地分配到所有可用处理器之上。 ??????? MPP 系统由许多松耦合的处理单元组成,要注意的是这里指的是处理单元而不是处理器。每个处理单元内的CPU都有自己私有的资源,如总线、内存、硬盘等(见图4)。在每个单元内都有操作系统和管理数据库的实例复本。这种结构最大的特点在于不共享资源。x86的PC服务器集群就是MPP架构的典型实例。 ??????? SMP架构的优势和劣势都在于它的内存、总线等共享资源,当程序的处理能力在资源能力范围内时效率很高,当处理需求大于资源承受能力时,瓶颈就出现了,而SMP的扩展是有限制的,并且扩展费用较高。 ??????? MPP系统不共享资源,相对资源总数一般比SMP系统要多,当需要处理的事务达到一定规模时,MPP的表现要比SMP好。所以对于OTLP应用,如用户访问一个中心数据库,采用SMP

您可能关注的文档

文档评论(0)

kehan123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档