基于属性约简及LOGISTIC回归客户信用度预测探究.docVIP

基于属性约简及LOGISTIC回归客户信用度预测探究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于属性约简及LOGISTIC回归客户信用度预测探究

基于属性约简及LOGISTIC回归客户信用度预测探究摘要:目前在通信领域的运营商仍然缺乏一套有效的对客户信用度的评价方法,原因是模型构造科学性不强;评价模型的参数选择不理想;因地区经济差异个别省份研究的模型无法在全国统一推广应用等等问题。为了改进上述不足,基于对某西部通信企业实际业务的商业理解,首先通过专家法选取了以历史信用、消费满意度、消费力、消费意愿、关键人物和忠诚度为业务纬度的27项与用户信用好坏有关的属性,并根据27条属性通过数据抽取、转换和装载(即ETL过程)我们从该企业数据仓库中提取大量真实的实验数据774万条。另外我们利用基于互信息的属性约简对原始的27项属性进行重要性筛选得到用于挖掘的16个属性,大大简化了模型构件过程的复杂度。最后我们以16个属性为输入值,以被定义的用户信用度为输出值,利用数据挖掘中的Logistic回归算法构造了完整的客户信用度预测模型。最终我们采用似然比检验方法验证了Logistic回归的适用性,并采用Wald检验自变量的有效性,对实际数据的预测准确率达到88.13%。在实践应用中,我们利用该模型计算出的用户信用差的概率来做为信用度高低的评分依据,再此基础上开展各种个性话的客户关怀和促销活动。目前该模型已经在西部的某通信运营商的正式生产系统环境中使用。 关键词:客户信用度;Logistic回归;似然比检验;Wald检验;收益分析 一、 问题背景 1.通信领域信用度的重要性。截止2009年5月,我国移动电话用户数已经接近7亿,移动通信网的规模已达到世界第一.随着3G时代运营商重组工作的完成,激烈的竞争要求企业为了获得最大的利润,就必须牢牢把控中、高价值客户,如何定义中高价值客户(既价值模型)已成为近年来运营商大力研究的重点,而该模型中的一个重要参数既客户信用度评定就成为急待解决的难题。 信用度的判定不但成为客户价值模型搭建的基础,同时在其他方面的也有很高的应用价值:作为客户价值(客户价值)模型的重要组成部分;缓解欠费风险;刺激消费,提升收入。 2.通信领域目前评价信用度的方法。目前在通信领域,评定客户信用度的方法中用得最多的有以下几类: 单值评价法;专家法;线性方程;这些方法虽然都有各自的优势,但也都存在各自的不完善的地方.因此进几年各省运营商开始引入高级的数据挖掘算法来协助模型的搭建,也取得部分进展,但也因为没有考虑的地区因素对用户消费的影响,所以在选取参数时,无法确保全国性的标准统一和推广应用.因此运营商需要根据各省的特点,设计一个数学模型,以便辅助进行客户信用度的研究和应用。 二、 商业理解 通信领域的用户信用度就是表示用户因各种原因而不按时缴纳话费和拖欠话费的可能性的度量。这里我们定义用户停止消费一个月以上且没有缴清欠费的客户为信用度“差”客户,否则为“好”客户。因此我们需要建立一个数学模型,基于客户资料、业务属性、消费情况和交费行为计算出与用户信用好坏的关系,并输出一个信用度数值,预测违约风险, 直接或间接地成为客户可以透支消费的门限,并可以应用计费帐务系统对客户欠费进行管理。 目前移动运营商企业内部都建立了自己专业级的数据仓库,并通过多年的积累,已经拥有了较完整的用户属性、消费属业务属性和缴费行为等各种详细资料,这些数据已经形成了几百T的信息资源,为通过数据挖掘方法来分析用户的信用度模型提供了可能。 为进行模型的研究,我们定义了一个客户信用度预测系统S=,其中U是对象集合,这里每个用户被称为一个对象。 C是条件属性集,通过专家法我们确定了以下27个可能会造成用户信用度低条件属性集: 2009年1-3月内客户欠费停机次数; 2009年1-3月平均每次停机总时长(小时); 2009年1-3月平均每月停机总天数; 2009年1-3月是否上过黑名单; 2009年1-3月是否曾经被催缴; 2009年3月31日活跃标志; 2009年3月31日欠费标志; 2009年1-3月客户投诉累计次数; 2009年4月用户的话费余额; 2009年1-3月客户当前套餐持续的时间; 2009年1-3月平均数据业务费用占比;2009年1-3月用户平均ARPU;2009年1-3月是否对公托收;2009年1-3月用户欠费经额;2009年1-3月用户ARPU变化趋势;2009年1-3月是否有年龄资料;2009年1-3月是否有收入资料;2009年1-3月是否有学历资料;2009年1-3月用户使用品牌;是否高收入者;是否集团关键人;是否中高端用户;Vip等级;2009年1-3月积分;2009年1-3月呼叫联客服次数;2009年1-3月集团内主被叫次数;2009年1-3月网内主被叫号码数;2009年1-3月是否集团成员;2009年1-3月在网时长。

文档评论(0)

linsspace + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档