数据挖掘课件数据挖掘7章分类和预测幻灯片.ppt

数据挖掘课件数据挖掘7章分类和预测幻灯片.ppt

  1. 1、本文档共60页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * * * Data Mining: Concepts and Techniques * 结果显示(一) * Data Mining: Concepts and Techniques * 结 果 显 示(二) * Data Mining: Concepts and Techniques * 7.4贝叶斯分类 后验概率(posteriori probabilities):P(H|X)表示条件X下H的概率. 贝叶斯定理: P(H|X)=P(X|H)P(H)/P(X) * Data Mining: Concepts and Techniques * 朴素贝叶斯分类 假定有m个类C1,…Cm,对于数据样本X,分类法将预测X属于类Ci,当且仅当 P(Ci|X) P(Cj|X),1=j=m,j!=i 根据贝叶斯定理, P(Ci|X)=P(X|Ci)P(Ci)/P(X) 由于P(X)对于所有类都是常数,只需最大化P(X|Ci) P(Ci) * Data Mining: Concepts and Techniques * 计算P(X|Ci),朴素贝叶斯分类假设类条件独立.即给定样本属性值相互条件独立. P(x1,…,xk|C) = P(x1|C)·…·P(xk|C) * Data Mining: Concepts and Techniques * * Data Mining: Concepts and Techniques * 样本 X = rain, hot, high, false P(X|p)·P(p) = P(rain|p)·P(hot|p)·P(high|p)·P(false|p)·P(p) = 3/9·2/9·3/9·6/9·9/14 = 0.010582 P(X|n)·P(n) = P(rain|n)·P(hot|n)·P(high|n)·P(false|n)·P(n) = 2/5·2/5·4/5·2/5·5/14 = 0.018286 样本 X 分配给 类 n (don’t play) * Data Mining: Concepts and Techniques * 贝叶斯网络 朴素贝叶斯算法假定类条件独立,当假定成立时,该算法是最精确的.然而实践中,变量之间的依赖可能存在. 贝叶斯网络解决了这个问题,它包括两部分,有向无环图和条件概率表(CPT). * Data Mining: Concepts and Techniques * 贝叶斯信念网络 Family History LungCancer PositiveXRay Smoker Emphysema Dyspnea LC ~LC (FH, S) (FH, ~S) (~FH, S) (~FH, ~S) 0.8 0.2 0.5 0.5 0.7 0.3 0.1 0.9 有向无环图 The conditional probability table for the variable LungCancer * Data Mining: Concepts and Techniques * 一旦FamilyHistory和Smoker确定,LungCancer就确定和其他的无关. P(LungCancer=“yes”| FamilyHistory=“yes” Smoker=“yes”)=0.8 P(LungCancer=“no”| FamilyHistory=“no” Smoker=“no”)=0.9 * Data Mining: Concepts and Techniques * 训练贝叶斯网络 梯度 其中s个训练样本X1,…Xs,Wijk表示具有双亲Ui=uik的变量Yi=yij的CPT项.比如Yi是LungCancer,yij是其值“yes”,Ui列出Yi的双亲(FH,S),uik是其值(“yes”,”yes”) * Data Mining: Concepts and Techniques * 梯度方向前进, Wijk=Wijk+(l)*梯度 其中l是学习率,l太小学习将进行得很慢,l太大可能出现在不适当的值之间摆动.通常令l=1/t,t是循环的次数 将Wijk归一化. 每次迭代中,修改Wijk,并最终收敛到一个最优解. * Data Mining: Concepts and Techniques * 神经网络 7.5 (向后传播分类)带回馈的分类 * Data Mining: Concepts and Techniques * 计算方法 * Data Mining: Concepts and Techniques * 由

文档评论(0)

开心农场 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档