- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
云计算在电信行业数据分析领域应用
云计算在电信行业数据分析领域的应用
1 云计算概述
云计算(Cloud Computing)是一种新兴的共享基础架构的方法,通过云计算技术可以将巨大的系统池连接在一起以提供各种IT服务,并可以按需提供资源、收取费用等,因此云计算也被看做是一种新型的资源利用模式。从技术角度看,云是一个包含大量可用虚拟资源(例如硬件、开发平台以及I/O服务)的资源池,这些虚拟资源可以根据不同的负载动态地配置,以达到更优化的资源利用率。这种资源池通常由基础设施提供商按照服务等级协议(SLA,ServiceLevel Agreement)采用用时付费(PPU,Pay-Per-Use)的模式开发管理。云计算使得超级计算能力通过互联网自由流通成为了可能,企业与个人用户无需再投入高昂的硬件购置成本,只需要通过互联网来购买或租赁计算力。
很多因素推动了对云计算的需求:从IT资源利用的角度来看,建设云计算这种超大规模IT资源池可以简化用户使用,降低IT资源的平均成本;从业务角度讲,移动应用、实时数据流、SOA、Web搜索、开放协作、社会网络和移动商务等新应用急剧增长,需要利用大规模的云平台进行支持;特别是对超大规模数据进行数据挖掘与分析的需求,直接推动了云计算的产生和发展。
2 电信行业中的数据分析业务
电信企业是典型的数据密集型企业,保存有海量的用户呼叫数据、WAP与GPRSEI志以及其他业务系统日志等。正确地分析这些数据从而获得有用的知识,能够使电信企业更好地向用户提供服务、发现更多的商机,同时可以分析市场状况,以便于制定营销策略、调整资费策略。因此,数据挖掘技术在电信业中有重要的应用价值。
但进行此类数据挖掘,需要投入大量的金钱和人力,用于购置、维护硬件设备以及购买相应软件。这主要是由于,电信行业中产生的经营日志数据巨大,一般技术无法处理。以话单数据为例,一个较大规模城市每月的数量可以达到50GB,对于大型直辖市,这个数字可能超过1TB。如此大的数据量,传统的数据库工具无法负荷,必须采用专用数据挖掘与分析工具,例如SASEnterprise Miner、SPSS Clementine、IBM IntelligentMinet等,而这些软件一般需要花费百万以上的年费。
不过,尽管这些数据挖掘工具价格昂贵,挖掘效果却仍有待提高。首先,传统数据挖掘工具基本都实现了常见数据挖掘算法,例如文献[2―4]中讨论了基于这些算法的客户流失预测分析方法,然而这些算法的实现都是传统的内存驻留式,所处理的数据也是结构化的数据(通常是某种数据库软件的固有格式),对于非结构化数据无能为力(例如原始日志)。其次,当数据集很大时,建立模型所需要的时间往往很长,所采用的机器往往是小型机等高端设备,虽然投入很大,但处理效果仍受制于单个主机的性能,无法通过分布式方式实现并行处理。
云计算技术可以弥补传统数据挖掘成本高、性能差的缺陷。通过云计算技术,即可以利用已有设备搭建分布式、高性能、可伸缩的数据分析中心,从而节省设备投入和软件投入成本,提高执行效率,为构建低成本、高效率的数据挖掘与分析系统提供了可能性。Hadoop则是构建此类系统的热门技术。
3 Hadoop云计算平台
Hadoop是Apache组织支持的一个开源软件,是Google云计算理论GFS、Map/Reduce、Bigtable的一个开源实现。Hadoop最早作为开源搜索引擎项目Nutch的基础平台而开发,随后成为一个独立的项目而发展。
Hadoop可以使用廉价Linux PC机组成集群运行各种应用,同时保持系统的稳定、高效。它能使编写和运用处理海量数据的应用程序更加容易,其核心组件有3个:一个是HDFS,分布式文件系统,可以提供高效、稳定的分布式存储,隐藏下层负载均衡、冗余复制等细节,对上层程序提供一个统一的文件系统API接口;一个是HBASE,一个大型的分布式数据库,这个数据库不是关系式的数据库,而是一个巨大的按列存储表格,可用来分布式存储半结构化的数据,例如日志数据等;Hadoop系统中最重要的组件则是Map/Reduce分布式处理组件。
Map/Reduce是一个编程模型,用以进行稳定、高效、超大数据量的分析计算。它将一个任务分成很多更细粒度的子任务,这些子任务能够在空闲的处理节点之间调度,使得处理速度越快的节点处理越多的任务,从而避免处理速度慢的节点延长整个任务的完成时间。Map/Reduce模型将分布式运算抽象为Map和Reduce两个步骤,其中Map是把输入Input分解成中间的Key/Value对,Reduce则是把Key/value合成为最终输出。
开发者只需要实现M
文档评论(0)