1.2 决策树学习.ppt

1.2 决策树学习

避免过度拟合的关键 使用什么样的准则来确定最终正确树的规模 解决方法 使用与训练样例截然不同的一套分离的样例,来评估通过后修剪方法从树上修建节点的效用。 使用所有可用数据进行训练,但进行统计测试来估计扩展(或修剪)一个特定的节点是否有可能改善在训练集合外的实例上的性能。 使用一个明确的标准来衡量训练样例和决策树的复杂度,当这个编码的长度最小时停止树增长。 交叉验证与树的修剪 方法评述 第一种方法是最普通的,常被称为交叉验证法。 可用数据分成两个样例集合: 训练集合,形成学习到的假设 验证集合,评估这个假设在后续数据上的精度 方法的动机:即使学习器可能会被训练集合误导,但验证集合不大可能表现出同样的随机波动 验证集合应该足够大,以便它本身可提供具有统计意义的实例样本。 常见的做法是,样例的三分之二作训练集合,三分之一作验证集合。 交叉验证与树的修剪 将树上的每一个节点作为修剪候选对象 修剪步骤 删除以此节点为根的子树,使它成为叶结点 把和该节点关联的训练样例的最常见分类赋给它 反复修剪节点,每次总是选取那些删除后可以最大提高决策树在验证集合上的精度的节点 继续修剪,直到进一步的修剪是有害的为止 数据分成多个子集 训练样例,形成决策树 验证样例,修剪决策树 测试样例,精度的无偏估计 交叉验证与树的修剪 从训练集合推导出决策树,增长决策树直到尽可能好地拟合训练数据,允许过度拟合发生 将决

文档评论(0)

1亿VIP精品文档

相关文档