数据挖掘PPT5.ppt

下载文档 降价啦

1
0
约7.07千字
约 57页
2018-05-16 发布于河南
举报
版权申诉
保障服务

数据挖掘PPT5.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据挖掘PPT5

数据挖掘的概念与技术数据分类方法分类和预测什么是分类? 什么是预测? 决策树分类神经网络分类其他分类方法预测方法总结分类 vs. 预测分类: 预测类的标志针对训练数据建立分类模型，利用模型预测未知的类标志预测: 对连续型变量建立函数依赖，预测未知的或缺失的数据应用信用卡审批目标市场的定位医疗诊断有效性分析分类—A Two-Step Process 建立模型: 描述一组已知的类每个对象的类标志是已知的，由class label attribute表示用来建模的对象集合: training set 模型用分类规则，决策树，或数学公式表示应用模型:利用模型预测类标志选择一组测试数据检测模型的准确度测试数据集(test set)与训练数据集是不同的用模型推导出来的类标志与已知的类标志比较，如果相同，则称结果是正确的准确度等于测试数据集中由模型得到正确结果的对象比例分类的过程 (1): 建立模型分类过程 (2): 根据模型预测监督学习 vs. 非监督学习监督学习-Supervised learning (classification) training data 的类标志是已知的由训练数据集得到模型，用于新的对象非监督的学习-Unsupervised learning (clustering) training data的类标志未知根据对象之间的距离进行划分各种分类算法评价分类方法的因素准确度效率建模的效率应用模型的效率鲁棒性处理noise，missing values 可扩展性可以处理大数据量可理解: 模型能用易于理解的方式表示规则的质量决策树的大小分类规则的复杂程度分类和预测什么是分类? 什么是预测? 决策树分类神经网络分类其他分类方法预测方法总结决策树的分类方法决策树内部结点对一个属性进行测试每个分支代表该属性的不同取值叶结点包含类标志决策树的生成包括两个步骤树的构造根结点对应全部数据递归地对每个结点的数据集进行划分树的削减删除由噪声导致的分支 ID3-Quiulan’86 Training Dataset Output: A Decision Tree for “buys_computer” 决策树的分类方法基本算法(a greedy algorithm) 按照从上到下递归的方法生成决策树根结点对应全部训练数据属性是分类型的(if continuous-valued, they are discretized in advance) 根据确定的策略计算每个属性的信息 (e.g., information gain) 对每个结点选择一个分割属性，把数据划分成若干子集结束条件所有元素属于同一类不存在可以分割的属性属性选择方法 (1) Information Gain ID3/C4.5 原理：选择信息增益最大的属性假设两类：P ，N 数据集S 包含p个P 类型的元素，n个N类型的元素 S的信息量 Information Gain in Decision Tree Induction 根据属性A，把S划分为一组子集{S1, S2 , …, Sv} 如果Si 包含pi 个P 类型的元素，ni 个N类型的元素，则熵(entropy)等于信息增益分别计算每个属性的信息增益，选择最大的属性作为划分属性例子 Class P: buys_computer = “yes” Class N: buys_computer = “no” I(p, n) = I(9, 5) =0.940 计算age的熵: 所以，类似地，属性选择方法 (2) Gini Index IBM Intelligent Miner 如果T 包含n 类元素,第j 类的元素出现的概率为pj ， gini index, gini(T)等于如果把T分割成两个子集 T1，T2 ，大小分别是N1，N2, 则 gini(T)等于选择ginisplit(T)最小的属性，对结点进行分割(测试每个属性所有可能的分割方法) 决策树的规则抽取表示为IF-THEN形式的规则一条从树的根结点到叶结点的路径产生一条规则树的中间结点构成一个与判断叶结点代表对类的预测规则易于理解 Example IF age = “=30” AND student = “no” THEN buys_computer = “no” IF age = “=30” AND student = “yes” THEN buys_computer = “yes” IF age = “31…40” TH