数值预测分析.ppt

下载文档 降价啦

14
0
约6.8千字
约 40页
2016-03-24 发布于湖北
举报
版权申诉
保障服务

数值预测分析.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

* * * * 5.3 回归树与模型树 5.3 回归树与模型树 5.3.1 模型树的构建 5.3.2 模型树的剪枝模型树的构建回归树的叶子结点对应一个数值，模型树的叶子结点对应一个线性回归方程 If CHMIN=7.5, then PRP=-0.0055 * MYCT+ 0.0013 * MMIN + 0.0029 * MMAX + 0.8007 * CACH + 0.4015 * CHMAX + 11.0971 if CHMIN 7.5 and MMAX = 28000, then PRP =-1.1492 * MYCT+ 0.0086 * MMIN+ 0.0031 * MMAX+ 0.8422 * CACH- 4.0839 * CHMIN+ 1.1597 * CHMAX+ 101.3434 if CHMIN 7.5 and MMAX 28000, then PRP =-0.4882 * MYCT+ 0.0218 * MMIN+ 0.003 * MMAX+ 0.3865 * CACH+ 3.2333 * CHMAX- 67.9242 图5.3 cpu数据集的模型树构建模型树的主要步骤训练数据集D；类别C={c1, c2, …, ck} 创建一个结点t，与结点t关联的数据集记为Dt。初始情况下训练数据集中的所有样本与根结点关联，即Dt=D。将t设为当前结点。如果当前结点t所关联的数据集Dt中样本个数小于给定阈值或者Dt中样本的目标属性取值的标准差小于给定阈值（例如初始数据集D的标准差的5%）, 则将该结点标记为叶子节点，停止对该结点所关联的数据集的进一步分裂，对数据集Dt运用多元线性回归建模方法构建回归模型。否则，进入下一步。为数据集Dt选择分裂属性和分裂条件。根据分裂条件将数据集Dt分裂为2个子数据集，为结点t创建2个子女结点，将这2个子数据集分别与之关联。依次将每个结点设为当前结点，转至步骤2进行处理，直至所有结点都标记为叶子结点。分裂属性的选择分裂属性的选择以分裂后的各个子数据集中目标属性取值的标准差为依据，将标准差作为一种误差度量，将分裂前后标准差的减少量作为误差的期望减少，称为SDR（standard deviation reduction）假设数据集D按照属性A的取值分裂为两个子数据集D1和D2，此次分裂的SDR值的计算公式如下： sd(D)代表数据集D中目标属性取值的标准差，|D|代表数据集D中包含的样本个数分裂条件连续取值的属性A：将A的所有取值升序排列，每两个相邻的取值的中点可以作为一个候选的分裂点，中点假设用vm表示，分裂条件则为 A?vm 和 Avm 计算每个候选分裂点的SDR值，选取具有最大值的分裂点作为该属性的分裂条件 CHMIN PRP 1 40 8 269 8 220 8 172 8 318 16 367 16 489 16 636 16 198 32 1144 分裂条件分裂条件 ?(单身)=(20+40+90)/2=50，?(已婚)=120，?(离异)=80 排序: 单身、离异、已婚 A1：婚姻状况?{单身}和婚姻状况?{离异，已婚} A2：婚姻状况?{单身，离异}和婚姻状况?{已婚} 婚姻状况账户余额（万）单身 20 单身 40 单身 90 已婚 30 已婚 200 已婚 130 离异 60 离异 100 模型树的剪枝为了避免过度拟合，需要对模型书进行剪枝。剪枝通过对树深度优先遍历从叶子结点向根结点进行给定结点t及所关联的数据集Dt，设样本个数为n，数据集Dt对应的多元线性回归模型Mt，Mt中涉及的自变量的个数为v，设利用该模型，Dt中每个样本的目标属性的预测值为pi、真值为ai，其节点t的期望误差error(t)如下计算：模型树的剪枝子树误差：两个叶子结点的期望误差通过加权求和结合在一起作为子树误差，权值是叶子结点包含样本占其父结点样本个数的比例若当前结点的期望误差小于子树误差，则将该结点设为叶子结点，即此子树被一个叶子结点代替 5.4 K近邻数值预测 K近邻假设训练集D由n个观测样本构成：{oi=(xi1, xi2,…, xik，yi)，i=1,2, …n }， yi是目标属性Y的取值对于测试集T中的一个测试样本tj=(xj1, xj2,…, xjk，yj), jn，选取与测试样本最相似的K个观测样本，构成集合N(tj) 测试样本tj的目标属性的预测值pj可以如下计算： 5.5 预测误差的度量性能评估数据集的构造训练集，测试集交叉验证 cross-v