- 15
- 0
- 约3.74千字
- 约 30页
- 2017-05-13 发布于湖北
- 举报
分类树与回归树分析 ——决策树分类 决策树的基本概念: 分类:决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。一般的数据挖掘工具,允许选择分裂条件和修剪规则,以及控制参数(最小节点的大小,最大树的深度等等)来限制决策树的过拟合(overfiting)。 过程:通过递归分割的过程构建决策树。 寻找初始分裂:整个训练集作为产生决策树的集合,训练集每个记录必须是已经分好类的。决定哪个属性(Field)域作为目前最好的分类指标。一般的做法是穷尽所有的属性域,对每个属性域分裂的好坏做出量化,计算出最好的一个分裂。量化的标准是计算每个分裂的多样性(diversity)指标GINI指标。 生成一棵完整的树:重复第一步,直至每个叶节点内的记录都属于同一类。 数据的修剪:不同的算法有不同修剪规则(修剪成大小合适的树)。 ①CHAID(Chi-squared Automatic Interaction Detector),由Kass于1980年提出,其核心思想是:根据给定的结果变量(即目标变量)和经过筛选的特征指标(即预测变量)对样本进行最优分割,按照卡方检验的显著性进行多元列联表的自动判断分组。其分类过程是:首先选定分类的目标变量,然后用分类指标与结果变量进行交叉分类,产生一系列二维分类表,分别计算二维分类表的χ2值,比
您可能关注的文档
- 思特奇农业信息化汇报V解答.pptx
- 思源策划逻辑思维的培养解答.pptx
- 四川三大发展战略(许彦)解答.pptx
- 苏南物业综合核算接管启动会会议解答.pptx
- 分数的意义解说.doc
- 分子、原子、离子及元素解说.doc
- 分子生物学复习解说.doc
- 分子生物学实验解说.doc
- 分子遗传学解说.doc
- 高中生物选修3专题复习解说.ppt
- 中国国家标准 GB/Z 18975.11-2026工业自动化系统与集成 流程工厂(包括石油和天然气生产设施)生命周期数据集成 第11部分: 基于RDFS方法论的参考数据工业简化用法.pdf
- GB 51251-2017 建筑防烟排烟系统技术标准 正式版加条文.pdf
- 《建筑防烟排烟系统技术标准》GB51251-2017(170822报批稿)规范.pdf
- 2025年人形机器人市场研究报告.docx
- 2025年人形机器人市场研究报告.pdf
- 从对话到执行:OpenClaw企业级智能体应用手册.pdf
- 《商业模式创新》.pdf
- Openclaw龙虾全维度安全实战指南.pdf
- 2025年IT行业项目管理调查报告.pdf
- 2025年宠物洗护市场复盘总结及新品趋势.pdf
最近下载
- 金蝶云星空最新版操作手册(PDF版).docx VIP
- (高清版)DB52∕T 1482-2019 二次供水储水设施清洗消毒技术规范.pdf VIP
- 2025年云南省昭通市小升初数学试卷含答案.pdf VIP
- 罗克韦尔(AB)Logix5000控制器系统参考手册(中文).pdf
- 中考语文总复习资料.doc VIP
- JDG管国标厚度要求(2022版).docx VIP
- 机械制图习题集-第七版-课后答案.ppt VIP
- DB52∕T 1482-2019 二次供水储水设施清洗消毒技术规范.docx VIP
- 视频监控维保项目投标方案(技术标).pptx VIP
- 论残疾人劳动就业权的法律保护【精品论文】.doc VIP
原创力文档

文档评论(0)