- 0
- 0
- 约1.3万字
- 约 59页
- 2022-05-11 发布于重庆
- 举报
* 4类数据集的最大熵:2 * 在计算器中计算对数用换底公式,先在“查看”菜单中选择“科学性”, log2(6/15)的按键顺序为:6,/,1,5,=,log,/,2,log,= * 与反应贫富差别的基尼系数(取值0-1,取值越大说明贫富差距越大)不同 * * ID3:只能处理类别输入变量;裂分标准选用信息增益; C4.5:可处理类别和区间输入变量,裂分标准选择信息增益率。 C5.0适用于大数据集 目标只能是分类变量; CART为二叉算法:如果目标是分类变量则为分类树,若目标变量是区间变量(数值interval变量),则为回归树; CHAID目标变量可以是区间或分类变量,主要特征是多向分叉,前向修剪,其标准如名所示,就是卡方检测。 前两类算法都可采用验证数据集进行剪枝(即后向修剪)。 Spliti:将每个划分子集看作一类(有一个对应的p(vi)),计算熵。 * i:子集 j:目标变量取值 原假设:子集在目标变量的分布上与裂分前无明显差异 * * * * * 训练误差估计泛华误差? 过拟合可能的原因:训练集中含有噪声(目标变量的取值有误)、训练集太小或叶子节点包含的观测太少、对原数据或总体不具有代表性 GINI指数的下降 GINI指数的下降 = 裂分前数据集的GINI指数 – 裂分后各子数据集的GINI指数加权和 其中:权重为每个子集中的观测数在裂分前总观测数中所占的比例 第三十一页,共五十九页。 二分指数划分 对于在属性s的划分t,二分指数的改进量为:(j表示目标变量的取值) 产生两个子节点间最大差异的属性s被选择。 第三十二页,共五十九页。 卡方检验划分 计算每个裂分的卡方值 选择卡方检验最显著的变量及其裂分分支 第三十三页,共五十九页。 选择裂分属性及其裂分条件 测试每个属性及其可能的裂分条件,计算裂分指标,选择最佳者。 注意: 对取值范围比较大的类别属性,可考虑分组泛化 对有序类别属性,划分不能改变其顺序性 对数值型属性,理论上需要测试各种可能的划分条件,实际上可以进行优化测试。也可以进行离散化处理。 * 排序 类标号改变的临界点中间值作为候选划分阈值 第三十四页,共五十九页。 Person Hair Length Weight Age Class Homer 0” 250 36 M Marge 10” 150 34 F Bart 2” 90 10 M Lisa 6” 78 8 F Maggie 4” 20 1 F Abe 1” 170 70 M Selma 8” 160 41 F Otto 10” 180 38 M Krusty 6” 200 45 M * 第三十五页,共五十九页。 Person Hair Length Weight Age Class Maggie 4” 20 1 F Lisa 6” 78 8 F Bart 2” 90 10 M Marge 10” 150 34 F Selma 8” 160 41 F Abe 1” 170 70 M Otto 10” 180 38 M Krusty 6” 200 45 M Homer 0” 250 36 M 第三十六页,共五十九页。 Weight = 165? yes no 划分前: Entropy(4F,5M) = -(4/9)log2(4/9) - (5/9)log2(5/9) = 0.9911 Entropy(4F,1M) = -(4/5)log2(4/5) - (1/5)log2(1/5) = 0.7219 Entropy(0F,4M) = -(0/4)log2(0/4) - (4/4)log2(4/4) = 0 Gain(Weight = 165) = 0.9911 – (5/9 * 0.7219 + 4/9 * 0 ) = 0.5900 * 第三十七页,共五十九页。 2. 裂分停止条件 每个叶子节点都属于同一个类别; 有可能得到一个非常大的树,某些叶子节点只包含很少的观测。 节点包含的观测个数小于某个指定值; 裂分的目标指标(例如:信息增益、信息增益率)非常小; 树的深度达到了预先指定的最大值。 预剪枝 * 第三十八页,共五十九页。 3. 树的选择 分类模型的优劣一般情况下可根据分类的准确度(或分类误差)来判断。 训练误差:在训练集上的误差 泛化误差:在非训练集上的期望误差 在验证数据集上的预测误差是泛化误差的无偏估计。 第三十九页,共五十九页。 过拟合 好的分类模型: 低训练误差 低泛化误差 拟合不足: 较高训练误差 较高泛化误差 过拟合: 低训
您可能关注的文档
最近下载
- 山桐子种植加工、旅游项目可行性研究报告商业计划书.docx VIP
- 山桐子种植及种苗培育种植加工可行性研究报告申请备案.doc VIP
- 和田地区2026年度地直机关公开遴选公务员、事业单位公开选聘工作人员备考题库及完整答案详解1套.docx VIP
- 山桐子合作种植协议合同.docx VIP
- 2025年香氛未来趋势报告-英敏特.docx VIP
- 报告正文2014年太阳绿宝.pdf VIP
- 2025年高考:云南物理--试题及答案.pdf VIP
- 广东省深圳市宝安区2025-2026学年五年级上学期期末学业质量评估语文试卷.docx VIP
- (2025)山桐子产业开发生产建设项目可行性研究报告(一).docx VIP
- 2024-2025学年广东省东莞市统编版三年级上册期末考试语文试卷.pdf VIP
原创力文档

文档评论(0)