第3章_决策树学习重点.ppt

下载文档 降价啦

7
0
约 56页
2017-03-22 发布于湖北
举报
版权申诉
保障服务

第3章_决策树学习重点.ppt

1、本文档共56页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

为什么短的假设优先奥坎姆剃刀的困难可以定义很多小的假设集合，根据什么相信有短描述的决策树组成的小假设集合比其他可定义的小假设集合更适当？假设的规模由学习器内部使用的特定表示决定从生物进化的观点看内部表示和奥坎姆剃刀原则决策树学习的常见问题决策树学习的实际问题确定决策树增长的深度处理连续值的属性选择一个适当的属性筛选度量标准处理属性值不完整的训练数据处理不同代价的属性提高计算效率针对这些问题，ID3被扩展成C4.5 避免过度拟合数据过度拟合对于一个假设，当存在其它的假设对训练样例的拟合比它差，但事实上在实例的整个分布上表现得却更好时，我们说这个假设过度拟合训练样例。定义：给定一个假设空间H，一个假设h?H，如果存在其它的假设h’?H，使得在训练样例上h的错误率比h’小，但在整个实例分布上h’的错误率比h小，那么就说假设h过度拟合训练数据。树的规模 accuracy on training data on test data 避免过度拟合数据（2）导致过度拟合的原因（1）一种可能原因是训练样例含有随机错误或噪声 Sunny Hot Normal Strong PlayTennis＝No 避免过度拟合数据（3）导致过度拟合的原因（2）当训练数据没有噪声时，过度拟合也有可能发生，特别是当少量的样例被关联到叶子节点时，很可能出现巧合的规律性，使得一些属性恰巧可以很好地分割样例，但却与实际的目标函数并无关系。过度拟合使决策树的精度降低（10～25）％避免过度拟合数据（4）避免过度拟合的方法及早停止树增长后修剪法两种方法的特点第一种方法更直观第一种方法中，精确地估计何时停止树增长很困难第二种方法被证明在实践中更成功避免过度拟合数据（5）避免过度拟合的关键使用什么样的准则来确定最终正确树的规模解决方法使用与训练样例截然不同的一套分离的样例，来评估通过后修剪方法从树上修剪节点的效用。使用所有可用数据进行训练，但进行统计测试来估计扩展（或修剪）一个特定的节点是否有可能改善在训练集合外的实例上的性能。使用一个明确的标准来衡量训练样例和决策树的复杂度，当这个编码的长度最小时停止树增长。避免过度拟合数据（6）方法评述第一种方法是最普通的，常被称为训练和验证集法。可用数据分成两个样例集合：训练集合，形成学习到的假设验证集合，评估这个假设在后续数据上的精度方法的动机：即使学习器可能会被训练集合误导，但验证集合不大可能表现出同样的随机波动验证集合应该足够大，以便它本身可提供具有统计意义的实例样本。常见的做法是，样例的三分之二作训练集合，三分之一作验证集合。错误率降低修剪将树上的每一个节点作为修剪的候选对象修剪步骤删除以此节点为根的子树，使它成为叶结点把和该节点关联的训练样例的最常见分类赋给它反复修剪节点，每次总是选取那些删除后可以最大提高决策树在验证集合上的精度的节点继续修剪，直到进一步的修剪是有害的为止数据分成3个子集训练样例，形成决策树验证样例，修剪决策树测试样例，精度的无偏估计如果有大量的数据可供使用，那么使用分离的数据集合来引导修剪决策树学习中错误率降低的修剪效果规则后修剪从训练集合推导出决策树，增长决策树直到尽可能好地拟合训练数据，允许过度拟合发生将决策树转化为等价的规则集合，方法是为从根节点到叶节点的每一条路径创建一条规则通过删除不会导致估计精度降低的前件来修剪每一条规则按照修剪过的规则的估计精度对它们进行排序，并按这样的顺序应用这些规则来分类后来的实例规则后修剪（2）例子 if (outlook=sunny)?(Humidity=High) then PlayTennis=No if (outlook=sunny)?(Humidity=Normal) then PlayTennis=Yes … 考虑删除先行词(outlook=sunny)或(Humidity=High) 选择使估计精度有最大提升的步骤考虑修剪第二个前件作为进一步的修剪步骤规则后修剪（3）规则精度估计方法使用与训练集不相交的验证集基于训练集合本身被C4.5使用，使用一种保守估计来弥补训练数据有利于当前规则的估计偏置过程先计算规则在它应用的训练样例上的精度然后假定此估计精度为二项式分布，并计算它的标准差对于一个给定的置信区间，采用下界估计作为规则性能的度量评论对于大的数据集，保守预测非常接近观察精度，随着数据集合的减小，离观察精度越来越远不是统计有效（此概念第5章介绍），但是实践中发现有效规则后修剪（4）把决策树转化成规则集的好处可以区分决策节点使用的不同上下文消除了根节点附近的属性测试和叶节点附近的属性测试的