云计算在电信行业数据分析领域应用.docVIP

下载本文档

8
0
约5.12千字
约 11页
2018-08-15 发布于福建
举报
版权申诉

云计算在电信行业数据分析领域应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

云计算在电信行业数据分析领域应用

云计算在电信行业数据分析领域的应用　　1　云计算概述　　　　云计算(Cloud Computing)是一种新兴的共享基础架构的方法，通过云计算技术可以将巨大的系统池连接在一起以提供各种IT服务，并可以按需提供资源、收取费用等，因此云计算也被看做是一种新型的资源利用模式。从技术角度看，云是一个包含大量可用虚拟资源(例如硬件、开发平台以及I/O服务)的资源池，这些虚拟资源可以根据不同的负载动态地配置，以达到更优化的资源利用率。这种资源池通常由基础设施提供商按照服务等级协议(SLA，ServiceLevel Agreement)采用用时付费(PPU，Pay-Per-Use)的模式开发管理。云计算使得超级计算能力通过互联网自由流通成为了可能，企业与个人用户无需再投入高昂的硬件购置成本，只需要通过互联网来购买或租赁计算力。　　　　很多因素推动了对云计算的需求：从IT资源利用的角度来看，建设云计算这种超大规模IT资源池可以简化用户使用，降低IT资源的平均成本；从业务角度讲，移动应用、实时数据流、SOA、Web搜索、开放协作、社会网络和移动商务等新应用急剧增长，需要利用大规模的云平台进行支持；特别是对超大规模数据进行数据挖掘与分析的需求，直接推动了云计算的产生和发展。　　　　2　电信行业中的数据分析业务　　　　电信企业是典型的数据密集型企业，保存有海量的用户呼叫数据、WAP与GPRSEI志以及其他业务系统日志等。正确地分析这些数据从而获得有用的知识，能够使电信企业更好地向用户提供服务、发现更多的商机，同时可以分析市场状况，以便于制定营销策略、调整资费策略。因此，数据挖掘技术在电信业中有重要的应用价值。　　但进行此类数据挖掘，需要投入大量的金钱和人力，用于购置、维护硬件设备以及购买相应软件。这主要是由于，电信行业中产生的经营日志数据巨大，一般技术无法处理。以话单数据为例，一个较大规模城市每月的数量可以达到50GB，对于大型直辖市，这个数字可能超过1TB。如此大的数据量，传统的数据库工具无法负荷，必须采用专用数据挖掘与分析工具，例如SASEnterprise Miner、SPSS Clementine、IBM IntelligentMinet等，而这些软件一般需要花费百万以上的年费。　　　　不过，尽管这些数据挖掘工具价格昂贵，挖掘效果却仍有待提高。首先，传统数据挖掘工具基本都实现了常见数据挖掘算法，例如文献[2―4]中讨论了基于这些算法的客户流失预测分析方法，然而这些算法的实现都是传统的内存驻留式，所处理的数据也是结构化的数据(通常是某种数据库软件的固有格式)，对于非结构化数据无能为力(例如原始日志)。其次，当数据集很大时，建立模型所需要的时间往往很长，所采用的机器往往是小型机等高端设备，虽然投入很大，但处理效果仍受制于单个主机的性能，无法通过分布式方式实现并行处理。　　云计算技术可以弥补传统数据挖掘成本高、性能差的缺陷。通过云计算技术，即可以利用已有设备搭建分布式、高性能、可伸缩的数据分析中心，从而节省设备投入和软件投入成本，提高执行效率，为构建低成本、高效率的数据挖掘与分析系统提供了可能性。Hadoop则是构建此类系统的热门技术。　　　　3　Hadoop云计算平台　　　　Hadoop是Apache组织支持的一个开源软件，是Google云计算理论GFS、Map/Reduce、Bigtable的一个开源实现。Hadoop最早作为开源搜索引擎项目Nutch的基础平台而开发，随后成为一个独立的项目而发展。　　Hadoop可以使用廉价Linux PC机组成集群运行各种应用，同时保持系统的稳定、高效。它能使编写和运用处理海量数据的应用程序更加容易，其核心组件有3个：一个是HDFS，分布式文件系统，可以提供高效、稳定的分布式存储，隐藏下层负载均衡、冗余复制等细节，对上层程序提供一个统一的文件系统API接口；一个是HBASE，一个大型的分布式数据库，这个数据库不是关系式的数据库，而是一个巨大的按列存储表格，可用来分布式存储半结构化的数据，例如日志数据等；Hadoop系统中最重要的组件则是Map/Reduce分布式处理组件。　　Map/Reduce是一个编程模型，用以进行稳定、高效、超大数据量的分析计算。它将一个任务分成很多更细粒度的子任务，这些子任务能够在空闲的处理节点之间调度，使得处理速度越快的节点处理越多的任务，从而避免处理速度慢的节点延长整个任务的完成时间。Map/Reduce模型将分布式运算抽象为Map和Reduce两个步骤，其中Map是把输入Input分解成中间的Key/Value对，Reduce则是把Key/value合成为最终输出。　　　　开发者只需要实现M