- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于马尔科夫毯网络的客户流失分析.doc
基于马尔科夫毯网络的客户流失分析 摘 要:贝叶斯网络是研究变量之间预测能力的有力工具,在解决不确定性和不完整性问题以及处理复杂问题上有很大的优势。作为朴素贝叶斯网络的扩展,马尔科夫毯贝叶斯网络只依据对输出结果有显著影响的输入变量进行分类预测,是一种更为理想的解决方案。利用马尔科夫毯贝叶斯网络进行流失客户分析,挖掘导致流失的客户特征,从而辅助决策者制订相应的客户挽留策略。 关键词:贝叶斯网络;马尔科夫毯;客户流失问题 中图分类号:TP181 贝叶斯网络以因果关系图的形式,直观表示了事物之间的因果关系,并利于进行相关的分类预测,广泛应用于数据分析领域。马尔科夫毯贝叶斯网络是其扩展,该模型能够提高预测的准确性,降低数据的过度拟合,但也增加了计算的复杂性,因此需要花费更长的时间来构造模型。 1 贝叶斯网络 贝叶斯网络(Bayesian Networks,BN)也称贝叶斯信念网络,20世纪80年代由Lauritzen和Spiegelhalter提出。贝叶斯网络是以贝叶斯理论为基础,贝叶斯网络是图论与概率论结合的产物,定性并定量地研究变量间关系。贝叶斯网络应用于分类、特征提取和推理等方面,是机器学习和数据挖掘领域的重要工具,在故障诊断、风险评估和生物信息等方面有着广泛的应用。 1.1 贝叶斯网络的组成 贝叶斯网络G 由网络的拓扑结构S和局部概率分布θ的集合两部分组成。网络结构S表示分类型随机变量集合X X1,X2,…,Xn 之间的独立和条件独立关系,S是一个有向无环图,表示变量间的依赖关系。节点X1的父节点记为Pαi,父节点的取值集合用 表示。参数集合θ是与每个变量相对应的局部概率,是给定父节点下的条件概率集合。变量X1的参数集合为: 。 1.2 贝叶斯网络的分类预测 贝叶斯网络对新数据的分类预测的依据是,贝叶斯网络结构S和参数集合θ,其核心是联合概率的计算。如果在给定Y条件下,变量X1和X2是条件独立的,则对于量X1,X2,Y的任何取值都有P(X1|X2,y) P(X1|y)。 类似地,p (x1,x2,x3,…,xn) P(x1)P(x2|x1)P(x3|x1,x2)…P(xn|x1,x2,…,xn-1)中的每一项都可以表示为: P(xi|x1,x2,…,xi-1) P(xi|Pαi),即与除父节点外的其他变量条件独立。于是有, ,即只需依据网络结构和局部概率集合就可直接计算联合概率,进而实现分类预测。 2 马尔科夫毯网络 2.1 马尔科夫毯网络的基本概念 马尔科夫毯变量是马尔科夫毯网络中的一个基本概念,是指对于节点Xi来说,其父节点、子节点以及子节点的父节点,都属于节点X1的马尔科夫毯变量。以朴素贝叶斯网络为例,由于输入变量节点均为输出变量节点的子节点,所以输出变量的马尔科夫毯变量是所有输入变量。对于马尔科夫毯网络来说,输入变量的马尔科夫毯变量应是与输出变量显著相关的输入变量。于是,分类预测将基于输出变量的马尔科夫毯变量的联合概率,而非全体输入变量。构建马尔科夫毯网络的主要任务是估计参数集合θ以及确定网络结构S。 2.2 马尔科夫毯网络结构的参数估计 通常采用贝叶斯方法进行估计,涉及参数的先验概率、似然函数,以及参数的后验概率三个方面。先验分布与后验分布是共轭分布,同属一分布族[1] 。 如果马尔科夫毯网络中的每个节点对应的变量均为二分类变量,参数θ的先验分布可选用Beta分布。标准Beta分布的数学定义为: 式中,Г()为Gamma函数,Г(x) (x-1)!,Г(1) 1;θ取值在0~1之间。Bata分布中的参数α和β成为超参数。参数θ的后验分布也服从Beta分布: 式中,n为“成功”的次数;N为实验的次数。基于这个后验分布,参数θ的期望为: ,即为最终参数估计值。 如果马尔科夫毯网络中的每个节点对应的变量为具有r个类别的多分类型变量,参数θ的先验分布可选用Dirichlet分布。Dirichlet分布的数学定义为: 式中,α1,α2,αr为超参数。参数θ的后验分布仍为Dirichlet分布,即:P(θ|D) Dir(θ|α1+N1,α2+N2,…,αr+Nr)式中,N1,N2,…,Nr为各类别“成功”次数。参数θk的最终估计值为后验分布的期望: 。 2.3 马尔科夫毯网络结构的学习 确定马尔科夫毯网络结构S的核心是寻找各个变量的马尔科夫毯变量。对于节点Xi,不在马尔科夫毯变量范围内的变量,是与变量Xi条件独立的变量。所以,构建马尔科夫毯网络结构S的首要任务是确定独立变量对,它们均不在彼此的马尔科夫毯变量中。 马尔科夫毯网络利用条件独立检验方法,发现变量之间的条件独立关系,并以此为基础构建马尔科夫毯网络。常用的方法有:条件卡方(Pearson Chi-square)检验和条件对数似然率(Log Likelihood Ratio
文档评论(0)