- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * 5.3 回归树与模型树 5.3 回归树与模型树 5.3.1 模型树的构建 5.3.2 模型树的剪枝 模型树的构建 回归树的叶子结点对应一个数值,模型树的叶子结点对应一个线性回归方程 If CHMIN=7.5, then PRP=-0.0055 * MYCT+ 0.0013 * MMIN + 0.0029 * MMAX + 0.8007 * CACH + 0.4015 * CHMAX + 11.0971 if CHMIN 7.5 and MMAX = 28000, then PRP =-1.1492 * MYCT+ 0.0086 * MMIN+ 0.0031 * MMAX+ 0.8422 * CACH- 4.0839 * CHMIN+ 1.1597 * CHMAX+ 101.3434 if CHMIN 7.5 and MMAX 28000, then PRP =-0.4882 * MYCT+ 0.0218 * MMIN+ 0.003 * MMAX+ 0.3865 * CACH+ 3.2333 * CHMAX- 67.9242 图5.3 cpu数据集的模型树 构建模型树的主要步骤 训练数据集D;类别C={c1, c2, …, ck} 创建一个结点t,与结点t关联的数据集记为Dt。初始情况下训练数据集中的所有样本与根结点关联,即Dt=D。将t设为当前结点。 如果当前结点t所关联的数据集Dt中样本个数小于给定阈值或者Dt中样本的目标属性取值的标准差小于给定阈值(例如初始数据集D的标准差的5%), 则将该结点标记为叶子节点,停止对该结点所关联的数据集的进一步分裂,对数据集Dt运用多元线性回归建模方法构建回归模型。否则,进入下一步。 为数据集Dt选择分裂属性和分裂条件。根据分裂条件将数据集Dt分裂为2个子数据集,为结点t创建2个子女结点,将这2个子数据集分别与之关联。依次将每个结点设为当前结点,转至步骤2进行处理,直至所有结点都标记为叶子结点。 分裂属性的选择 分裂属性的选择以分裂后的各个子数据集中目标属性取值的标准差为依据,将标准差作为一种误差度量,将分裂前后标准差的减少量作为误差的期望减少,称为SDR(standard deviation reduction) 假设数据集D按照属性A的取值分裂为两个子数据集D1和D2,此次分裂的SDR值的计算公式如下: sd(D)代表数据集D中目标属性取值的标准差,|D|代表数据集D中包含的样本个数 分裂条件 连续取值的属性A:将A的所有取值升序排列,每两个相邻的取值的中点可以作为一个候选的分裂点,中点假设用vm表示,分裂条件则为 A?vm 和 Avm 计算每个候选分裂点的SDR值, 选取具有最大值的分裂点作为 该属性的分裂条件 CHMIN PRP 1 40 8 269 8 220 8 172 8 318 16 367 16 489 16 636 16 198 32 1144 分裂条件 分裂条件 ?(单身)=(20+40+90)/2=50,?(已婚)=120,?(离异)=80 排序: 单身、离异、已婚 A1:婚姻状况?{单身}和婚姻状况?{离异,已婚} A2:婚姻状况?{单身,离异}和婚姻状况?{已婚} 婚姻状况 账户余额(万) 单身 20 单身 40 单身 90 已婚 30 已婚 200 已婚 130 离异 60 离异 100 模型树的剪枝 为了避免过度拟合,需要对模型书进行剪枝。剪枝通过对树深度优先遍历从叶子结点向根结点进行 给定结点t及所关联的数据集Dt,设样本个数为n,数据集Dt对应的多元线性回归模型Mt,Mt中涉及的自变量的个数为v,设利用该模型,Dt中每个样本的目标属性的预测值为pi、真值为ai,其节点t的期望误差error(t)如下计算: 模型树的剪枝 子树误差:两个叶子结点的期望误差通过加权求和结合在一起作为子树误差,权值是叶子结点包含样本占其父结点样本个数的比例 若当前结点的期望误差小于子树误差,则将该结点设为叶子结点,即此子树被一个叶子结点代替 5.4 K近邻数值预测 K近邻 假设训练集D由n个观测样本构成:{oi=(xi1, xi2,…, xik,yi),i=1,2, …n }, yi是目标属性Y的取值 对于测试集T中的一个测试样本tj=(xj1, xj2,…, xjk,yj), jn,选取与测试样本最相似的K个观测样本,构成集合N(tj) 测试样本tj的目标属性的预测值pj可以如下计算: 5.5 预测误差的度量 性能评估 数据集的构造 训练集,测试集 交叉验证 cross-v
您可能关注的文档
最近下载
- PLC编程手册.pdf VIP
- 注册环保工程师之注册环保工程师专业基础题库及答案【各地真题】.docx VIP
- 2025春议题式导与学道德与法治七年级下册04-第四单元 生活在法治社会(教用).docx
- 存储架构优化方案.docx VIP
- 中医在抑郁焦虑调理中的思路.pptx VIP
- 住院患者走失应急预案.pptx VIP
- 脾梗死护理个案.pptx VIP
- GB∕T 40685-2021 信息技术服务 数据资产 管理要求.pdf
- 变配电所二此设备应急故障处理—变配电所保护误动和拒动故障查找处理(高铁变电设备检修).pptx
- 部编人教版六年级上册《道德与法治》全册知识点归纳、考点整理,复习必备.docx VIP
文档评论(0)