数据挖掘分类和预测PPT.ppt

下载文档

11
0
约2.42千字
约 104页
2018-01-26 发布于江苏
举报
版权申诉
保障服务

数据挖掘分类和预测PPT.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据挖掘分类和预测PPT

第七章：分类和预测;分类：预测种类字段基于训练集形成一个模型，训练集中的类标签是已知的。使用该模型对新的数据进行分类预测: 对连续性字段进行建模和预测。典型应用信用评分 Direct Marketing 医疗诊断 …………;分类的两个步骤;分类过程：模型创建;分类过程 (2): 使用模型;关于分类和预测的问题 (2): 评估、比较分类方法;7.3使用决策树进行分类（188页）;训练集;Output: A Decision Tree for “buys_computer”;决策树算法;属性选择的统计度量;Information Gain (ID3/C4.5) 190页;Information Gain 在决策树中的使用;使用信息增益进行属性选择 (例7.2);Gini Index (IBM IntelligentMiner);几种经典算法介绍;从树中生成分类规则;在分类中避免过度适应(Overfit);决定最终树大小的方法;对基本决策树的提高;在大型数据库中进行分类;Scalable Decision Tree Induction 数据挖掘中提出的方法; SLIQ算法介绍;Sliq分类算法;Sliq分类算法;Sliq分类算法;Sliq分类算法;Sliq分类算法;基于数据立方体的决策树; 结果显示(一); 结果显示(二);7.4贝叶斯分类;朴素贝叶斯分类;计算P(X|Ci),朴素贝叶斯分类假设类条件独立.即给定样本属性值相互条件独立. P(x1,…,xk|C) = P(x1|C)·…·P(xk|C) ;Date;样本 X = rain, hot, high, false P(X|p)·P(p) = P(rain|p)·P(hot|p)·P(high|p)·P(false|p)·P(p) = 3/9·2/9·3/9·6/9·9/14 = 0.010582 P(X|n)·P(n) = P(rain|n)·P(hot|n)·P(high|n)·P(false|n)·P(n) = 2/5·2/5·4/5·2/5·5/14 = 0.018286 样本 X 分配给类 n (don’t play) ;贝叶斯网络;贝叶斯信念网络;一旦FamilyHistory和Smoker确定,LungCancer就确定和其他的无关. P(LungCancer=“yes”| FamilyHistory=“yes” Smoker=“yes”)=0.8 P(LungCancer=“no”| FamilyHistory=“no” Smoker=“no”)=0.9 ;训练贝叶斯网络;梯度方向前进, Wijk=Wijk+(l)*梯度其中l是学习率,l太小学习将进行得很慢,l太大可能出现在不适当的值之间摆动.通常令l=1/t,t是循环的次数将Wijk归一化. 每次迭代中,修改Wijk,并最终收敛到一个最优解.;神经网络;计算方法;由前一层的输出作为输入i,与对应的权w相乘形成加权和,再加上偏置对上面结果用一个非线性函数f作用形成本层的输出.将较大的值映射到0-1之间;算法步骤;计算实例;一个训练样本X={1,0,1},输出为1 X1=1,x2=0,x3=1,w14=0.2,w15=-0.3,w24=0.4,w25=0.1,w34=-0.5,w35=0.2,w46=-0.3,w56=-0.2, 偏置值:节点4:-0.4,节点5:0.2,节点6:0.1 学习率设为0.9;节点4: 输入值:w14*x1+w24*x2+w34*x3+节点4的偏置=1*0.2+0.4*0-0.5*1-0.4=-0.7 输出值:用公式可得0.332 同理:节点5输入值0.1,输出值0.525 节点6: 输入值:w46*o4+w56*o5+节点6的偏置=-0.3*0.332-0.2*0.525+0.1=-0.105 输出值:0.474;误差计算;更新权值和偏置值;终止条件;神经网络的解释;Date;解释过程;灵敏度分析;7.6 基于关联规则的分类 7.7 其他分类方法 K-最临近分类基于案例的推理遗传算法粗糙集算法模糊集算法 7.8 预测线性回归和多元回归非线性回归其他回归模型;7.9 分类法的准确性评估分类法的准确率提高分类法的准确率准确率足够判定分类法？ 7.10 总结;第七章：分类和预测;主讲人朱扬勇;一、数据挖掘概念----定义;一、数据挖掘概念----原由;一、数据挖掘概念----原由;一、数据挖掘概念----原由;一、数据挖掘概念----发展;一、数据挖掘概念-