第八章分类预测-决策树方法.pptVIP

下载本文档

9
0
约1.01万字
约 46页
2017-06-15 发布于北京
举报
版权申诉

第八章分类预测-决策树方法.ppt

1、本文档共46页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

* 后面两个幻灯片的内容可以自己对着书讲，让学生看幻灯片，而后再过到后面算法扼要说明每个子集的计算即可。 * Vi={v1=Sunny, v2=Overcast, v3=Rain} * 至此可以下课；下一节讲MDL原理和决策树学习的遗留问题 * 计划第二次课开始处，集中在问题：如何唯一确定决策树及解决回溯问题 * 如果前面联系计算信息增益费时较多，此处可以结束本章；信息增益是“生死手”；从ID3 到C4.5 是锦上添花；从C4.5 到C5.0 是精益求精；课下要求学习C4.5 （现在已经是C5.0，加了Boosting, 偏爱深树）利用后修剪技术来克服过度拟合问题，属于C4.5算法的具体内容，可以不在课堂上讲的。另外，剪枝策略涉及到估计精度的分布问题，可以留待学完第五章 “假设评估方法”之后要求掌握。 * 此中为具有不同节点个数的多对假设（每一对有不相同的节点个数），即(左右)横向比较。 * 到此结束，后面的可以自学，理由，限于时间关系，不能都讲。 * 数据库新技术 (数据挖掘) * / 34 4.2 C4.5的修剪算法滞后修剪将生成树转换成规则再修剪，自己阅读从叶子节点向上逐层修剪误差估计，在训练样本集上估计误差通常，估计生成的决策树在测试集上的预测误差修剪标准修剪示例 * 数据库新技术 (数据挖掘) * / 34 4.2.1 避免过度拟合数据过度拟合对于一个假设h，如果存在其他的假设对训练样例的拟合比它差，但在实例的整个分布上却表现得更好时，我们说这个假设h过度拟合训练样例定义：给定一个假设空间H，一个假设h?H，如果存在其他的假设h’?H，使得在训练样例上h的错误率比h’小，但在整个实例分布上h’的错误率比h小，那么就说假设h过度拟合训练数据。图3-6的例子，说明树的尺寸(节点数)对测试精度和训练精度的影响——避免过度拟合必须控制树尺寸! * 数据库新技术 (数据挖掘) * / 34 Overfitting * 数据库新技术 (数据挖掘) * / 34 避免过度拟合必须控制树尺寸 High accuracy, small error Low accuracy, big error * 数据库新技术 (数据挖掘) * / 34 避免过度拟合数据（2）导致过度拟合的原因一种可能原因是训练样例含有随机噪声当训练数据没有噪声时，过度拟合也有可能发生，特别是当少量的样例被关联到叶子节点时，很可能出现巧合的规律性，使得一些属性恰巧可以很好地分割样例，但却与实际的目标函数并无关系。 * 数据库新技术 (数据挖掘) * / 34 避免过度拟合数据（3）避免过度拟合的方法及早停止树增长后修剪法两种方法的特点第一种方法更直观，但是精确地估计何时停止树增长很困难第二种方法被证明在实践中更成功 * 数据库新技术 (数据挖掘) * / 34 避免过度拟合数据（4）避免过度拟合的关键使用什么样的准则来计算最终决策树的尺寸解决方法使用与训练样例不同的一套分离的样例来评估通过后修剪方法从树上修剪节点的效用。使用所有可用数据进行训练，但进行统计测试来估计扩展（或修剪）一个特定的节点是否有可能改善在训练集合外的实例上的性能。使用一个显式的标准来测度训练样例和决策树的编码复杂度，当这个测度最小时停止树增长。 * 数据库新技术 (数据挖掘) * / 34 避免过度拟合数据（5）方法评述第一种方法是最普通的，常被称为训练和验证集法可用的数据分成两个样例集合：训练集合，形成学习到的假设验证集合，评估这个假设在后续数据上的精度方法的动机：即使学习器可能会被训练集合误导，但验证集合不大可能表现出同样的随机波动验证集合应该足够大，以便它本身可提供具有统计意义的实例样本。常见的做法是，样例的三分之二作训练集合，三分之一作验证集合。 * 数据库新技术 (数据挖掘) * / 34 4.2.1 C5.0决策树的误差估计针对决策树的每个节点，以输出变量的众数类别为预测类别；设第i个节点包含Ni个观测样本值，有Ei个预测错误的观测，错误率，即误差在误差近似正态分布的假设下，对第i个节点的真实误差进行区间估计，置信度定位1- ，有悲观估计： * 数据库新技术 (数据挖掘) * / 34 4.2.2 C5.0决策树的修剪标准在误差估计的基础上，依据“减少误差”法判断是否修剪节点；计算待剪子树中叶子节点的加权误差与父节点的误差进行比较父节点的误差较小，则剪掉该子树父节点的误差较大，保留该子树 * 数据库新技术 (数据挖掘) * / 34 修剪节点、降低错误率将树上的每一个节

您可能关注的文档

文档评论（0）

xiaofei2001129 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

第八章分类预测-决策树方法.pptVIP