- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
4.5.2 基于树的回归 ? 回归树使用快速的分治贪心算法来构建, 该算法递归地将给定的训练数据划分成较 小的子集; ? 由于基于小案例样本估计的不可靠性,也 可能导致树的较低层上的决策质量较低。 4.5.2 基于树的回归 ? 回归树使用递归划分算法构建; ? 该算法通过递归地将训练样本划分成较小 的子集来构建树; ? RP 算法接受 n 个数据点的集合作为输入, 并且当特定终止条件不满足时,产生一个 测试节点 t ,分支通过对输入数据点的两个 子集使用相同的算法得到; ? 这两个子集分别由节点 t 上逻辑上满足划分 测试 S* 的案例和其余案例组成; 4.5.2 基于树的回归 ? 每个节点,根据某种局部标准,选择最好 的划分测试; ? 这意味着一种贪心爬山算法。 4.5.7 模型树 ? 回归树的计算量随着维度增加迅速增加; ? 模型树可以有效地学习处理多达数百属性 的高维度; ? 模型树主要优点是比回归树小的多,决策 能力明显,不涉及许多变量。 4.6 具有未知类值数据的类预测的一般问题 ? 决策树的一个作用是预测类未知的数据集 的类值; ? 假定给学习算法提供一系列如 [X1,f(X1)],[X2,f(X2)], … 的训练实例; ? 学习算法返回一个逼近目标函数 f 的假设 h 。 4.6 具有未知类值数据的类预测的一般问题 ? 如图 4-18 ; ? 如果两个假设逼近 f 的效果一样好,我们没 有先验理由认为一个比另一个好; ? 简单的理论比复杂的理论更可取 — 剃刀原 理; ? 基本思想:最好的科学理论是揭示所有事 实的最简单的理论。 第 4 章 决策树 - 分类和回归树 4.1 引言 ? 分类树是使用树结构算法将数据分成离散 的方法; ? 该技术在医疗,市场调查统计,营销和顾 客关系方面得到了很好的应用; ? 例如:一个树结构分类器使用血压,年龄 和先前的治疗情况将心脏病患者分成危险 和不危险; 4.1 引言 ? 另一种工具可能使用与年龄有关的变量和 其他人口统计量决定谁应该出现在邮件发 送清单上;预测对直接邮寄广告的反应和 确定控制电信业顾客流失的方法都是具体 行业的应用; ? 决策树的主要作用是揭示数据中的结构化 信息。 4.1 引言 ? 决策树算法用于树生长的策略,主要问题: – 选择分类变量的标准; – 找到被选择的变量的分裂点的标准; – 确定何时停止树生长过程的标准。 ? 本章所讨论的算法,他们主要差别是用来 处理上述问题 1 , 2 的标准不同。 4.1 引言 ? 如果目标变量(相应变量或类变量)是标 称 / 分类变量,称此树为 分类树 ; ? 如果目标变量是连续的(收入),则称为 回归树 。 4.2 构造分类树 ? 4.2.1 用于标称属性的 ID3 算法 – ID3 :归纳决策树版本 3 ,是一种用来数据构 造决策树的递归过程; – 我们试探性的选择一个属性放置在根节点,并 对这个属性的每个值产生一个分支; – 分裂根节点上的数据,并移动到子女结点,产 生一颗局部树; – 根据局部树的质量选择一颗局部树; 4.2 构造分类树 ? 4.2.1 用于标称属性的 ID3 算法 – 我们可以根据哪个属性会得到“好的”局部树 来选择一个属性; – 这是一个递归的过程; – 常常用信息熵来度量节点的纯度。 4.2.2 信息论和信息熵 ? 信息论: – 是数学中的概率论和数理统计的一个分支,用 于处理信息和信息熵,通信系统,数据传输和 率失真理论,密码学,信噪比,数据压缩和相 关课题的; – Shannon- 信息论之父; – 将信息传输看做一种统计学现象,并且为通信 工程师提供一种方法,使用普通的二进制位流 确定通信信道的容量 — bit 。 4.2.2 信息论和信息熵 ? 熵: – 源于热力学概念; – 热力学熵( S ):物理系统中不能用来做功的 能量的一种度量,也是系统无序性的一种度量; – 在构造决策树上的应用; 4.2.2 信息论和信息熵 ? 信息熵: – 当一个节点上的“ yes ” 或“ no ” 个数为零时, 信息熵为零; – 当一个节点上的“ yes ” 或“ no ” 个数相等时, 信息熵为最大; – entropy(P1,P2, … Pn)=-P1log 2 P1- P2log 2 P2- … - Pnlog 2 Pn 4.2.3 构造树 ? 信息增益的公式
您可能关注的文档
最近下载
- 无机非金属材料工艺学课件.pptx VIP
- 6SR550 NXGPRO+ 中压变频器通讯手册A5E50226719J_NXGpro+ Communication Manual_Chinese.pdf VIP
- 无机非金属材料工艺学课件.pptx VIP
- 2024年高中数学同步高分突破讲义(人教A版2019)1.1空间向量及其运算-(选择性必修第一册)(学生版+解析).docx VIP
- 上海证券交易所上市公司业务操作手册.pdf
- 2025年高考语文备考古诗鉴赏之韩琦《次韵答致政杜公以迁职惠诗》.docx VIP
- 军队文职思维导图:公共科目基础知识-非法.pdf VIP
- 冬季施工混凝土施工方案编制依据.docx VIP
- 儿童财商启蒙课课件.pptx
- 最新民宿劳务合同模板.docx VIP
文档评论(0)