基于客户流失预测特征选择.docVIP

下载本文档

3
0
约2.58千字
约 6页
2018-06-23 发布于福建
举报
版权申诉

基于客户流失预测特征选择.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于客户流失预测特征选择

基于客户流失预测特征选择　　摘要特征选择是数据预处理的一个重要手段，本文介绍了特征选择的几种常用方法：过滤法，封装法及这两种方法的混合，最后结合客户流失预测这个特定的问题提出适当的方法。　　关键字客户流失预测特征选择神经网络　　中图分类号：C93；F830. 文献标识码：A 　　一、引言　　特征选择作为一个重要的数据预处理手段，对于我们一个特定的客户关系管理问题而言，客户流失预测是一个典型的二元分类问题，它将客户分为流失与不流失，要想建立预测模型，并不是特征越多越好，我们需要选择与类别变量最相关的那些变量。而我们直接从样本中得到的数据往往是十分巨大的，从一家企业可以得到的数据就成千上万，其特征属性也会达到几十甚至上百，为了对样本进行准确的识别并为分类器的成功设计提供一定的基础，往往需要进行特征选择，选择那些对区别不同类别最有效的特征，而舍去那些对分类毫无关系的无关特征及与其他特征表现性能相似的冗余特征。　　二、特征选择的算法　　目前普遍使用的是以下三种方法：过滤（Filter）法，封装（Wrapper）法，嵌入式（Embeded）法，我们这里主要讨论前两种方法及前两种方法相混合的方法。Filter特征选择法是基于数据的内在结构信息而不依赖于各种分类算法对子集的评价，它一般直接用训练数据的统计性能评估特征，速度较快。Wrapper特征选择法依赖于分类器的评价准则，将分类的算法嵌入到特征选择过程当中，目的是达到最大分类准确率，偏差小，但计算量较大。而混合的特征选择过程算是集两者之长，补两者之短。　　（一）过滤（Filter）法。　　过滤法是基于单个特征属性的选择方法，根据每个特征属性值进行单个评估该属性与相关类的关联度，再根据每个属性的评估值进行排序，选择排序靠前的属性。　　基于不同的判别标准有多种过滤法，本文在这里仅介绍一种基于Relief的过滤法。　　在Filter算法中，Relief是效果较好的filter特征评估方法，它将属性区分“相近”样本的能力作为评估其重要程度的标准，它可以去掉无关特征，但不能去除冗余，而且他只能用于二元分类问题，所以我??一般是先使用Relief算法删除不相关属性，再使用K-means算法对属性进行聚类，删除冗余属性，最后是一个组合的特征选择算法。下图为特征与目标值的相关系数。　　（二）封装法（Wrapper）。　　封装法是将分类错误率作为特征重要性的评价标准，选择那些可以获得较高分类性能的特征。　　封装法主要分为无监督的学习（Unsupervised Learning）和有监督的学习（Supervised Learning）。无监督的学习是在样本的类别标签未定的情况下进行数据挖掘的方法，它聚类的目的在于将对分类有影响的特征聚在一起。有监督的学习是指已知类别标签下的数据挖掘。对客户流失预测这个问题而言，我们已知其类别标签为“流失”与“不流失”，因此应当用后一种方法。　　在有监督的学习中，有许多分类器，而由于神经网络分类器的容错性，自适应性和模式识别能力，它适合处理那些含有噪声的数据，它允许长时间的训练，输入的特征之间可以具有高度的相关性，所以它非常适合处理客户流失预测特征选择这个问题。它的训练过程是：训练BP神经网络，根据网络的结构参数计算不同的特征对输出的灵敏度，去除灵敏度小的特征，用剩下的特征组成的特征子集再去训练BP神经网络，以此反复，直到子集为空。　　（三）混合特征选择。　　一般的特征选择数据样本较大，时间复杂度较高，所以单用 Filter和Wrapper算法均无法达到很好的效果，而这两种算法是两种互补的模式，两者结合使用效果更佳。混合特征选择有两个阶段，一是先用过滤法去掉大量的无关特征，大大降低了特征规模。在第二阶段，用封装法处理剩余的特征来选择出关键特征，下图为特征选择基本框架。　　三、基于客户流失预测的特征选择方法　　在客户流失预测这个特定的问题下，可以用K-means算法的方法对属性进行聚类，然后从每一类里面选择一部分（比如随机选一半，这只是最简单的思路）属性出来，共同构成一个特征子集，或者者随机子空间的方法即随机选择特征子集，最后以模型在测试集上的总的分类精度，以及各类的精度来选择出好的属性。这时候，再将初选后的数据交给封装法，用它来进一步处理数据。　　这里要以各类的精度来选择出好的属性，是因为用于客户流失预测建模的客户数据的类别分布往往是不平衡的，很多时候流失客户与不流失客户的数量之比能达到1：100 甚至更小。当客户数据类别分布不平衡时，仅以总的的分类精度来判定很难取得令人满意的结果，因此我们常常用总的和各类的精度一起作为选择好属性的标准。　　如下是这个问题的神经网络函数定义的