机器学习之决策树学习.pptVIP

下载本文档

31
0
约7.47千字
约 49页
2018-03-08 发布于河北
举报
版权申诉

机器学习之决策树学习.ppt

1、本文档共49页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

机器学习之决策树学习

* 隐形眼镜例子（1）上述属性和人群分类一律按顺序用数字1, 2…表示，可以假设根据属性a、b、c、d有如下表的分类(纯属虚拟) * 决策树学习概述决策树学习的适用问题决策树建树算法决策树学习中的假设空间搜索决策树学习的归纳偏置决策树学习的常见问题 OUTLINE * 决策树学习中的假设空间搜索观察ID3的搜索空间和搜索策略，认识到这个算法的优势和不足假设空间包含所有的决策树，它是关于现有属性的有限离散值函数的一个完整空间维护单一的当前假设（不同于第二章的变型空间候选消除算法）不进行回溯，可能收敛到局部最优每一步使用所有的训练样例，不同于基于单独的训练样例递增作出决定，容错性增强 * 决策树学习概述决策树学习的适用问题决策树建树算法决策树学习中的假设空间搜索决策树学习的归纳偏置决策树学习的常见问题 OUTLINE * 决策树学习的归纳偏置 ID3的搜索策略优先选择较短的树选择那些信息增益高的属性离根节点较近的树很难准确刻画ID3的归纳偏置近似的ID3的归纳偏置较短的树比较长的树优先，信息增益高的属性更靠近根节点的树优先 * 限定偏置和优选偏置 ID3和候选消除算法的比较 ID3的搜索范围是一个完整的假设空间，但不彻底地搜索这个空间候选消除算法的搜索范围是不完整的假设空间，但彻底地搜索这个空间 ID3的归纳偏置完全是搜索策略排序假设的结果，来自搜索策略候选消除算法完全是假设表示的表达能力的结果，来自对搜索空间的定义 * 限定偏置和优选偏置优选偏置 ID3的归纳偏置是对某种假设胜过其他假设的一种优选，对最终可列举的假设没有硬性限制限定偏置候选消除算法的偏置是对待考虑假设的一种限定通常优选偏置比限定偏置更符合归纳学习的需要优选偏置和限定偏置的结合例如：第一章中描述的下棋程序 * 决策树学习概述决策树学习的适用问题决策树建树算法决策树学习中的假设空间搜索决策树学习的归纳偏置决策树学习的常见问题 OUTLINE * 决策树学习的常见问题确定决策树增长的深度处理连续值的属性处理属性值不完整的训练数据 * 问题1：避免过度拟和数据过度拟合对于一个假设，当存在其他的假设对训练样例的拟合比它差，但事实上在实例的整个分布上表现得却更好时，我们说这个假设过度拟合训练样例定义：给定一个假设空间H，一个假设h?H，如果存在其他的假设h’?H，使得在训练样例上h的错误率比h’小，但在整个实例分布上h’的错误率比h小，那么就说假设h过度拟合训练数据。 * 问题1：避免过度拟和数据（1）导致过度拟合的原因一种可能原因是训练样例含有随机错误或噪声当训练数据没有噪声时，过度拟合也有可能发生，特别是当少量的样例被关联到叶子节点时，很可能出现巧合的规律性，使得一些属性恰巧可以很好地分割样例，但却与实际的目标函数并无关系。例如：见下页 * 问题1：避免过度拟和数据（1） High Normal Strong Weak Outlook Wind Humidity Sunny Overcast Rain Yes No Yes No Yes 训练样例集中加入一条训练正例，但被错误标示为反例: Outlook=Sunny, Temp=Warm, humidity=Normal, Wind=Strong，PlayTennis=no * 问题1：避免过度拟和数据（2）避免过度拟合的方法及早停止树增长后修剪法两种方法的特点第一种方法更直观，但是精确地估计何时停止树增长很困难第二种方法被证明在实践中更成功 * 问题1：避免过度拟和数据（3）后修剪法：错误率降低修剪该方法考虑将树上的每一个节点作为修剪的候选对象。修剪一个节点的步骤： 1 删除此节点为根的子树，使它成为叶子节点 2 把和该节点关联的训练样例的最常见分类赋给它。仅当修剪后的树对于测试集合的性能不比原来的树差时才删除该节点 * 问题2：合并连续值属性 ID3被限制为取离散值的属性学习到的决策树要预测的目标属性必须是离散的树的决策节点的属性也必须是离散的简单删除上面第2个限制的方法通过动态地定义新的离散值属性来实现，即先把连续值属性的值域分割为离散的区间集合。例如：对于属性Ａ，动态创建一新的布尔属性Ac if Ac Ac = true else Ac = false 阈值c的选择：产生最大信息增益的c * 问题2：合并连续值属性（1）选择阈值c的方法按照连续属性A排序样例，然后确定目标分类不同的相邻样例，于是可以产生一组候选阈值，他们的值是相应的A值之间的中间值(48+60/2)和(80+90/2) 计算每一个候选属性Temperature5