- 9
- 0
- 约1.49万字
- 约 9页
- 2017-08-15 发布于河南
- 举报
决策树过度拟合
决策树学习的过拟合问题
姓名:
专业:通信与信号系统
学号:
一 决策树学习简介
决策树学习是一种逼近离散值目标函数的方法,这种方法将从一组训练数据中学习到的函数表示为一棵决策树。决策树叶子为类别名,其他的结点由实体的特征组成,每个特征的不同取值对应一个分枝。若要对一个实体分类,从树根开始进行测试,按特征的取值向下进入新结点,对新结点进行测试,过程一直进行到叶结点,实例被判为属于该叶子结点所标记的类别。它可以表示任意的离散函数和离散特征,可以将实例分成两个或多个类。
二 决策树学习的过拟合问题产生原因
决策树是判断给定样本与某种属性相关联的决策过程的一种表示方法。决策树的每个内部结点是对属性的一个测试,每个分支代表一个测试输出,每个叶结点表示某个类别或类别的分布。当一个待分类的样本沿根结点经内部结点的测试达到某个叶结点时,则判定该样本属于此叶结点所标识的类别。
建立决策树的过程,即树的生长过程是不断地把训练数据集进行划分的过程,每次划分对应一个属性,也对应着一个内部结点,划分所选的属性应使划分后的分组“差异”最大。决策树生成算法的不同主要体现在对“差异”的衡量方式上。
通常直接生成的完全决策树不能立即用于对未知样本进行分类。由于完全决策树对训练样本的特征描述得“过于精确”,无法实现对新样本的合理分析,所以此时它不是一棵分析新数据的最佳决策树。一棵完全决策树能非常准确地反映训练集中
原创力文档

文档评论(0)