网站大量收购独家精品文档,联系QQ:2885784924

基于BP神经网络的客户特征属性约简.docVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于BP神经网络的客户特征属性约简   摘要:针对数据收集中的海量数据,该文提出了一种基于BP神经网络的属性约简。通过神经网络计算分析原始数据中的各属性权值,从原始数据的众多属性中提炼出与客户流失度相关性较大的属性,找出对最终结果有关联的变量,删除那些不相关或不重要的属性,从而提高模型的效率和准确率。   关键词:客户;神经网络;属性约简;数据挖掘。   中图分类号:TP183文献标识码:A文章编号:1009-3044(2011)11-2640-02   1 特征属性约简的意义   在数据挖掘中,我们要面对海量的原始数据,在这些数据中,并不是所有的信息都是有用的,如何在其中找到最关键最有用的属性,从而提高模型的效率和准确率,是我们研究的一个重点。把源表的信息原封不动的汇总起来没有太大意义,必须关注用户某些关键指标的波动情况。如在电信用户的挖掘中我们要关注:用户本月话费与往月话费相比是上升还是下降了,幅度有多大?用户通话时长怎样变化?当月的短信费用占总体费用的比例是多少等等。这些衍生的分析信息是数据挖掘不可缺少的输入变量,那么与用户有关的特征就变得更多了。大致有如下几个方面:客户个人属性(包括客户ID、性别、年龄、职业、是否离网、收入等),客户合同属性(包括入网时长、付费类型、入网渠道、资费标识、消费限额等级等),客户缴费属性(包括缴费方式、欠费次数、当月金额、当月欠费金额、连续三个月平均消费额、最近三个月消费情况等),客户通话及短信属性(包括通话时长、通话次数、长途次数比例、拨打客服电话次数等等)。   客户属性如此之多,而且很多属性还需要进一步细化,因此将所有属性都应用于挖掘模型中是不现实的。属性约简是数据挖掘的一个关键步骤,在数据收集阶段,很难确切知道哪些属性是相关的,哪些属性是不重要的,所有的属性都被认为是有用的,全部存在数据库。实际上,数据库中的属性并不是同等重要,有些甚至是冗余的,而且对于特定的数据挖掘任务,用户往往只对属性的某个子集感兴趣。因此要对众多属性进行约简,即在尽量保持数据库分类能力不变的条件下,删除那些不相关或不重要的属性。本文就是利用神经网络的属性约简方法对客户属性进行有效的选择,提高挖掘的效率。   2 BP神经网络   神经网络(Neural Network,NN),亦称人工神经网络(Artificial Neural Network,ANN),是由大量处理单元(即神经元)互联而成的网络,是对人脑的抽象、简化和模拟,反映人脑的基本特性。神经网络从人脑的生理结构来研究人的智能行为,从而模拟人脑信息处理的功能。BP神经网络即误差反向传播(Error Back Proporgation)网络因为其逼近能力好和成熟的训练方法而成为应用最广泛的神经网络之一。它是一种多层前馈神经网络,由输入层、输出层和隐含层组成,其神经元激励函数是S型函数,输出量为0到1之间的连续量,可实现从输入到输出的非线性映射。BP算法是用于前馈多层网络的学习算法,它含有输入层、输出层以及处于输入输出层之间的中间层。在中间层(也称为隐层)的神经元也称隐单元。输入输出之间的关系会受隐层状态的影响,当改变隐层的权系数时,整个多层神经网络的性能也会改变。设有一个m层的神经网络,Xi为输入层样本,Uik为第k层的i神经元输入总和, Xik为输出; Wij为从第k-1层的第j个神经元到第k层的第i个神经元的权系数,f为各个神经元激发函数,则各变量关系可用下面数学式表示:   人工神经网络具有以下特点:   1) 具有高速信息处理的能力;   2) 神经网络的知识存储容量大;   3) 具有很强的不确定性信息;   4) 具有很强的健壮性;   5) 一种具有高度非线性的系统。   BP神经网络适合模拟直感思维,它具有的并行处理、自适应性、容错性和强大的学习能力等特性,都是决策树所需要的;决策树则适用于模拟逻辑思维,它具有的易于分析推理、较强的知识表达能力、导出的规则容易理解等能与神经网络互补。通过神经网络不断的学习调整形成的网络结构,可以去掉冗余信息,从而简化数据的属性维度。客户流失模型的构造如下所示,它包括神经网络特征简约部分以决策树算法对流失客户的划分部分。   在图1中,神经网络部分包括:学习规则的选取、神经网络结构的确定、各种参数的选择,将提取的客户数据作为原始数据输入神经网络,逐步调整客户数据各属性权值大小进行学习。按属性对分类的相关度进行简约。   3 BP网络的学习过程及算法   BP网络是应用较为广泛的神经网络,它采用有教师的学习规则,算法核心是一边向后传播误差,一边修正误差来不断调节权值,采用两趟传播对每个学习过程进行计算,以实现或逼近得到期望输出。输入信号经过输入层和隐含层,在输出端产生输出信

文档评论(0)

heroliuguan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档