第4讲分类—决策树.ppt

下载文档

104
0
约1.48万字
约 109页
2018-02-28 发布于山东
举报
版权申诉
保障服务

第4讲分类—决策树.ppt

1、本文档共109页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据挖掘与知识管理数据挖掘与知识管理回顾：数据仓库 DW的概念与结构 DW的设计与开发联机分析处理第四讲分类——决策树 1、分类与预测分类预测种类字段基于训练集形成一个模型，训练集中的类标签是已知的。使用该模型对新的数据进行分类 Prediction: 对连续性字段进行建模和预测。典型应用信用评分 Direct Marketing 医疗诊断 ………… 分类的两个步骤模型创建: 对一个类别已经确定的模型创建模型每一条记录都属于一个确定的类别，我们使用类标签属性记录类别。用于创建模型的数据集叫:训练集模型可以用分类规则，决策树，或者数学方程的形式来表达。模型使用: 用创建的模型预测未来或者类别未知的记录估计模型的准确率使用创建的模型在一个测试集上进行预测，并将结果和实际值进行比较准确率：测试集和训练集是独立的分类过程：模型创建分类过程 (2): 使用模型有监督和无监督学习有监督学习 (分类) 训练集是带有类标签的新的数据是基于训练集进行分类的。无监督学习 (聚集) 训练集是没有类标签的。提供一组属性，然后寻找出训练集中存在类别或者聚集。补充：Classification Techniques Decision Tree based Methods（决策树） Rule-based Methods（基于规则的方法） Neural Networks（神经网络） Na?ve Bayes and Bayesian Belief Networks(朴素贝叶斯和贝叶斯信念网络) Support Vector Machines（向量机） Example of a Decision Tree Another Example of Decision Tree Decision Tree Classification Task Apply Model to Test Data Apply Model to Test Data Apply Model to Test Data Apply Model to Test Data Apply Model to Test Data Apply Model to Test Data Decision Tree Classification Task 2、决策树概念 2.1 分类树 2.2 医疗数据例子 2.3 决策树 2.1 分类树分类树是使用树结构算法将数据分成离散类的方法 Breiman，20世纪80年代，创造在医疗、市场调查统计、营销和客户关系应用如：一个树结构分类器使用血压、年龄和病历，将心脏病患者分成危险和不危险两类主要作用：揭示数据中的结构化信息 2.2 医疗数据的例子医疗数据，变量之间的联系性别、年龄、血压、药物之间有联系吗？响应变量（目标变量或类变量）—药物解释（预测）变量—性别，年龄，血压决策树汇总了数据，并揭示了隐藏的结构处方规则：如果血压高，则采用药物A。如果血压低，则采用药物B。如果血压正常，并且年龄小于或等于40，则采用药物A，否则采用药物B。问题1：为什么分类从血压开始？而不从性别，年龄，等属性开始？问题2：为什么年龄以40为界限？问题3：确定了药物A或B就结束么？ ?如果被大量数据（案例）支持，这些规则将成为进入医疗部门新医生的有用指南。 ?其中一些规则甚至可能成为试图发现这些规则的理论基础的新一代科学家的研究课题。对规则的评估：如果血压高，则采用药物A（准确率100%,支持度3/12）如果血压低，则采用药物B（准确率100%,支持度3/12）如果血压正常并且年龄小于或等于40，则采用药物A（准确率100%,支持度3/12）如果血压正常并且年龄大于40，则采用药物B（准确率100%,支持度3/12） 2.3 决策树如果目标变量（响应变量或类变量）是标称/分类变量（如处方药），则称为分类树（classification tree）如果目标变量是连续的（如收入），则称为回归树（regression tree） ? 决策树（分类/回归树）算法用于树生长的策略。主要问题是： ——选择分裂变量的标准 ——找到被选择的变量的分裂点的标准（连续变量情况） ——确定何时停止 3、信息论和信息熵 ? 3.1 信息论 ? 3.2 熵 ? 3.3 信息熵公式 3.1 信息论 ? information，把接受到的东西进行整理 ——in，接受，来自 ——-formation，排队，构成，编队 ? 信息（information）是数据经过加工处理后所得到的另外一种数据，这种数据对接收者的行为有一定的影响。信息是关于客观事实的可通讯的知识信息是与外界相互交换的内容信息是能用来消除不