基于MapReduce电信客户流失决策树算法研究.docVIP

下载本文档

6
0
约3.88千字
约 8页
2018-06-23 发布于福建
举报
版权申诉

基于MapReduce电信客户流失决策树算法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于MapReduce电信客户流失决策树算法研究

基于MapReduce电信客户流失决策树算法研究　　摘要：针对传统的关系型数据管理技术在电信企业面对海量数据对客户流失进行分析研究时存在的海量存储能力和计算能力不足的问题，提出了一种基于MapReduce架构的并行决策树算法，该算法采用校正系数来避免ID3算法多值偏向问题，并应用于客户流失分析中。在Hadoop 集群平台上的结果分析表明：基于MapReduce并行模型能够解决电信企业进行客户流失分析时处理大规模数据的问题，在保证分类准确率的情况下能获得趋近线性的加速比，并具有较好的扩展性。　　关键词： MapReduce；决策树；客户流失　　中图分类号：TP274 文献标识码：A 文章编号：1009-3044（2013）30-6710-04 　　1 概述　　随着电信业务的发展和体制的不断变革，国内电信行业之间的竞争日益激烈。各运营商为了增加收入和利润，提高客户满意度和忠诚度，必须充分获取和利用数据信息对企业决策过程进行辅助支持，而数据挖掘技术就是实现这一目标的重要手段。数据挖掘技术在电信领域有着非常广泛的应用，比如客户关系管理、电话欺诈、客户流失分析和客户消费模式分析等等[1]。客户流失分析是通过数据挖掘，分析客户的自然属性特征和行为特征，找到可能流失客户的特征，及时采取相应措施，为企业挽留这类客户提供决策参考。　　决策树分类算法是应用最广的归纳推理算法之一，传统的决策树算法有：ID3、C4.5等。将决策树算法应用于电信客户流失分析中的案例也不少。但是，随着电信行业客户信息量的爆发式增长，传统决策树算法在处理海量客户数据时性能问题日益明显，因此，利用大规模处理技术来实现海量客户数据的挖掘分析任务越来越重要，将决策树分类算法进行并行化也被越来越多的人重视。Google提出的MapReduce模型为大数据处理提供了解决方案。该模型对用户而言只需要设计并行计算任务。该文针对电信客户流失中使用的决策树算法，先将电信客户的一些属性进行筛选和概化，然后利用属性间独立的性质，设计提出了一种面向海量电信客户数据的并行决策树算法，对电信客户流失进行分析和研究，实验表明该算法是高效可行的。　　2 电信企业客户流失分析[2] 　　通常数据挖掘的过程可以大致分为问题定义、数据选择、数据清洗和预处理，以及模型建立与调整，模型的评估与检验，模型解释与应用等。　　在电信的数据仓库中，已有大量的客户个人基本信息，即客户信息表。客户信息表中，有很多的属性，比如客户姓名，年龄，用户接入号码，在网时间，客户状态等，数据准备的时候，需要面向属性进行归纳，即考察数据中的每个属性的不同值的个数，进行概化。概化可以通过属性删除或者属性概化实现。经过属性删除处理后的客户信息如表1所示。　　3 MapReduce技术　　Hadoop是Apache的一个开源分布式计算框架，并已应用在许多网站，如亚马逊，脸书和雅虎等等。Hadoop是一个分布式系统基础架构，充分利用集群的力量，具有高速运算和存储能力的优点。它假设计算单元和存储会失败，因此保留多个工作数据副本，以确保重新分配过程中发生故障的节点正常工作。它通过并行处理加快了处理速度。　　Hadoop框架最核心的部分是： MapReduce和HDFS。其中，MapReduce是一个用于数据处理的简单编程模型。对相同的处理过程，Hadoop可以运行各种语言编写的MapReduce程序。最重要的是，MapReduce的程序基本上并行的，所以，对拥有足够机器的运营商，我们可以进行大规模数据集的分析。MapReduce具有处理大数据集的显著优势，它非常适合应用于云平台上。　　MapReduce的核心任务是将数据转化成不同的逻辑块，用分布式模型编写程序，它可以并行处理分布式集群。MapReduce的输入是一组键/值对，输出的也是键/值对。用户需要将工作分成两块：Map和Reduce。首先，Map过程中的各个块并行分开，这些逻辑块的结果被重新组合起来，形成不同的排序集合，最后，Reduce对它们进行处理[3]。　　4 基于MapReduce的决策树算法　　4.1改进的决策树算法　　ID3算法主要引入了信息论中的信息增益作为选择测试属性的重要度量标准。该算法的核心思想是：选择信息熵最大的属性产生决策树的根节点，由该节点的不同取值建立决策树的分枝，再对各个分枝自顶向下地使用贪心算法递归搜索训练样本集，在每个分枝上又产生新的节点，从而构建决策树。　　4.2决策树算法并行化　　通过分析可以知道，决策树生成的关键在于通过计算各个属性信息增益值，选择信息增益大的属性作为分裂属性，产生节点和分枝，这样的计算占了大量的资源，消耗了很多时间，鉴于串行计算速度慢的问题，但是属性间相互独立的