数据挖掘7章-分类和预测2.pptVIP

下载本文档

2
0
约2.23千字
约 24页
2018-05-17 发布于四川
举报
版权申诉

数据挖掘7章-分类和预测2.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

贝叶斯定理后验概率(posteriori probabilities):P(H|X)表示条件X下H的概率. 贝叶斯定理: P(H|X)=P(X|H)P(H)/P(X) 朴素贝叶斯分类假定有m个类C1,…Cm,对于数据样本X,分类法将预测X属于类Ci,当且仅当 P(Ci|X) P(Cj|X),1=j=m,j!=i 根据贝叶斯定理, P(Ci|X)=P(X|Ci)P(Ci)/P(X) 由于P(X)对于所有类都是常数,只需最大化P(X|Ci) P(Ci) 计算P(X|Ci),朴素贝叶斯分类假设类条件独立.即给定样本属性值相互条件独立. P(x1,…,xk|C) = P(x1|C)·…·P(xk|C) 样本 X = rain, hot, high, false P(X|p)·P(p) = P(rain|p)·P(hot|p)·P(high|p)·P(false|p)·P(p) = 3/9·2/9·3/9·6/9·9/14 = 0.010582 P(X|n)·P(n) = P(rain|n)·P(hot|n)·P(high|n)·P(false|n)·P(n) = 2/5·2/5·4/5·2/5·5/14 = 0.018286 样本 X 分配给类 n (don’t play) 贝叶斯网络朴素贝叶斯算法假定类条件独立,当假定成立时,该算法是最精确的.然而实践中,变量之间的依赖可能存在. 贝叶斯网络解决了这个问题,它包括两部分,有向无环图和条件概率表(CPT). 一旦FamilyHistory和Smoker确定,LungCancer就确定和其他的无关. P(LungCancer=“yes”| FamilyHistory=“yes” Smoker=“yes”)=0.8 P(LungCancer=“no”| FamilyHistory=“no” Smoker=“no”)=0.9 训练贝叶斯网络梯度其中s个训练样本X1,…Xs,Wijk表示具有双亲Ui=uik的变量Yi=yij的CPT项.比如Yi是LungCancer,yij是其值“yes”,Ui列出Yi的双亲(FH,S),uik是其值(“yes”,”yes”) 梯度方向前进, Wijk=Wijk+(l)*梯度其中l是学习率,l太小学习将进行得很慢,l太大可能出现在不适当的值之间摆动.通常令l=1/t,t是循环的次数将Wijk归一化. 每次迭代中,修改Wijk,并最终收敛到一个最优解. 神经网络计算方法由前一层的输出作为输入i,与对应的权w相乘形成加权和,再加上偏置对上面结果用一个非线性函数f作用形成本层的输出.将较大的值映射到0-1之间算法步骤计算实例一个训练样本X={1,0,1},输出为1 X1=1,x2=0,x3=1,w14=0.2,w15=-0.3,w24=0.4,w25=0.1,w34=-0.5,w35=0.2,w46=-0.3,w56=-0.2, 偏置值:节点4:-0.4,节点5:0.2,节点6:0.1 学习率设为0.9 节点4: 输入值:w14*x1+w24*x2+w34*x3+节点4的偏置=1*0.2+0.4*0-0.5*1-0.4=-0.7 输出值:用公式可得0.332 同理:节点5输入值0.1,输出值0.525 节点6: 输入值:w46*o4+w56*o5+节点6的偏置=-0.3*0.332-0.2*0.525+0.1=-0.105 输出值:0.474 误差计算节点6: 0.474*(1-0.474)*(1-0.474)=0.1311 节点5: 0.525*(1-0.525)*0.1311*(-0.2)= -0.0065 同理节点4误差为:-0.0087 更新权值和偏置值 W46: -0.3+(0.9)(0.1311)(0.332)=-0.261 其他Wij同理节点6的偏置: 0.1+(0.9)*(0.1311)=0.218 其他偏置同理终止条件对所有样本作一次扫描称为一个周期终止条件:对前一周期所有Wij的修改值都小于某个指定的阈值;或超过预先指定的周期数. 防止训练过度神经网络的解释解释过程对隐藏节点进行聚类,对于所有给定的输入,输出值分成几个类. 导出与输出节点O的一系列规则导出与输入节点I的一系列规则得到关于输入和输出的规则灵敏度分析用于评估一个给定的变量对网络输出的影响.改变该变量的输入,其他变量固定,监测网络的输出. 得到的规则形如:IF X 减少5%, THEN Y 增加 8%的规则. * * 贝叶斯网络 Family History LungCancer PositiveXRay Smoker Emphysem