- 10
- 0
- 约2.51千字
- 约 22页
- 2021-03-24 发布于北京
- 举报
分类回归树 课程大纲 2018.9.15 集成学习 实战 2018.9.22 Boosting与Adaboost 实战 2018.9.29 Bagging与随机森林 实战 分类与回归树: 分类回归树(CART,Classification And Regression Tree)属于一种决策树,分类回归树是一棵二叉树,且每个非叶子节点都有两个孩子,所以对于第一棵子树其叶子节点数比非叶子节点数多1。 上例是属性有8个,每个属性又有多少离散的值可取。在决策树的每一个节点上我们可以按任一个属性的任一个值进行划分。比如最开始我们按:1)表面覆盖为毛发和非毛发;2)表面覆盖为鳞片和非鳞;3)体温为恒温和非恒温 等等产生当前节点的左右两个孩子。按哪种划分最好呢?有3个标准可以用来衡量划分的好坏:GINI指数、双化指数、有序双化指数。下面我们只讲GINI指数。 总体内包含的类别越杂乱,GINI指数就越大(跟熵的概念很相似)。比如体温为恒温时包含哺乳类5个、鸟类2个,则: 体温为非恒温时包含爬行类3个、鱼类3个、两栖类2个,则 所以如果按照“体温为恒温和非恒温”进行划分的话,我们得到GINI的增益(类比信息增益): 最好的划分就是使得GINI_Gain最小的划分。 一个节点产生左右孩子后,递归地对左右孩子进行划分即可产生分类回归树。当节点包含的数据记录都属于同一个类别时就可以终止分裂了。 当分类回归树划分得太细时,会对噪声数据产生过拟合作用。因此我们要通过剪枝来解决。剪枝又分为前剪枝和后剪枝:前剪枝是指在构造树的过程中就知道哪些节点可以剪掉,于是干脆不对这些节点进行分裂,在分类回归树中可以使用的后剪枝方法有多种,比如:代价复杂性剪枝、最小误差剪枝、悲观误差剪枝等等。 决策树 决策生成过程中有三个重要的问题: (1)数据如何分割 (2)如何选择分裂的属性 (3)什么时候停止分裂 数据分割 假如我们已经选择了一个分裂的属性,那怎样对数据进行分裂呢? 分裂属性的数据类型分为离散型和连续性两种情况,对于离散型的数据,按照属性值进行分裂,每个属性值对应一个分裂节点;对于连续性属性,一般性的做法是对数据按照该属性进行排序,再将数据分成若干区间,如[0,10]、[10,20]、[20,30]…,一个区间对应一个节点,若数据的属性值落入某一区间则该数据就属于其对应的节点。 (1)属性1“职业”是离散型变量,有三个取值,分别为白领、工人和学生,根据三个取值对原始的数据进行分割,如下表所示: (2)属性2是连续性变量,这里将数据分成三个区间,分别是[10,20]、[20,30]、[30,40],则每一个区间的分裂结果如下: 分裂属性的选择 决策树采用贪婪思想进行分裂,即选择可以得到最优分裂结果的属性进行分裂。那么怎样才算是最优的分裂结果?最理想的情况当然是能找到一个属性刚好能够将不同类别分开,但是大多数情况下分裂很难一步到位,我们希望每一次分裂之后孩子节点的数据尽量”纯”,决策树使用信息增益或者信息增益率作为选择属性的依据。 (1)信息增益 用信息增益表示分裂前后跟的数据复杂度和分裂节点数据复杂度的变化值,计算公式表示为: 其中Gain表示节点的复杂度,Gain越高,说明复杂度越高。信息增益说白了就是分裂前的数据复杂度减去孩子节点的数据复杂度的和,信息增益越大,分裂后的复杂度减小得越多,分类的效果越明显。 节点的复杂度可以用熵和基尼系数两种不同的方式计算。 a)熵 熵描述了数据的混乱程度,熵越大,混乱程度越高,也就是纯度越低;反之,熵越小,混乱程度越低,纯度越高。 熵的计算公式如下所示: 其中Pi表示类i的数量占比。以二分类问题为例,如果两类的数量相同,此时分类节点的纯度最低,熵等于1;如果节点的数据属于同一类时,此时节点的纯度最高,熵 等于0。 b)基尼值 其中Pi表示类i的数量占比。其同样以上述熵的二分类例子为例,当两类数量相等时,基尼值等于0.5 ;当节点数据属于同一类时,基尼值等于0 。基尼值越大,数据越不纯。 例子 以熵作为节点复杂度的统计量,分别求出下面例子的信息增益,图3.1表示节点选择属性1进行分裂的结果,图3.2表示节点选择属性2进行分裂的结果,通过计算两个属性分裂后的信息增益,选择最优的分裂属性。 例子 (2)信息增益率 使用信息增益作为选择分裂的条件有一个不可避免的缺点:倾向选择分支比较多的属性进行分裂。为了解决这个问题,引入了信息增益率这个概念。信息增益率是在信息增益的基础上除以分裂节点数据量的信息增益,其计算公式如下: 其中Info_Gain 表示信息增益, InstrinsicInfo表示分裂子节点数据量的信息增益,其计算公式为: (2)信息增益率 (2)信息增益率 (2)信息增益率 停止分裂的
您可能关注的文档
最近下载
- 新能源仿真建模及模型验证-20231007(1).pdf VIP
- 2026年江苏建筑职业技术学院单招职业适应性测试模拟测试卷附答案.docx VIP
- 《涂装工艺流程》课件.ppt VIP
- 第8课 用制度体系保证人民当家作主 课件 中职高教版中国特色社会主义.pptx
- 党课讲稿材料:树立和践行正确政绩观.docx VIP
- 2025年评茶员(高级)职业技能鉴定考试题库(综合版).doc VIP
- 2024-2025学年中职生物学全一册人教版(2010)教学设计合集.docx
- 2024仁爱版初中英语单词表汇总(七~九年级)中考复习必背 .pdf VIP
- GBT28046.4_道路车辆电气及电子设备的环境条件和试验第4部分气候负荷.docx VIP
- 2025至2030全球及中国办公室和商业咖啡服务行业项目调研及市场前景预测评估报告.docx VIP
原创力文档

文档评论(0)