- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多元线性回归中的变量选择 线性回归模型 两种情况 X列满秩: X列不满秩,先把X投影到某个子空间中,保证列满秩,再求解; 建立模型的步骤 采集数据X和y 将采集到的数据分成三个部分 校正集(Calibration set) 验证集(Validation set) 测试集(Test set) 校正集用于建立模型;验证集用于验证模型以确定最佳参数;测试集用于最终测试。 如果样本个数比较少,就只能分成校正集和测试集两部分; 这样,校正集还要用于验证模型,一般会导致过拟合(overfitting)。 数据集例子 图中共有80个样本, 40个校正集,20个验证集,20个测试集 每个样本700个变量 y是玉米中的植物油含量 建立模型 常用方法 MLR(Multiple Linear Regression) RR(Ridge Regression) PCR(Principle Component Regression) PLSR(Partial Least Squares Regression) NN(Neural Network) SVR(Support Vector Regression) 确定模型复杂度 原则 既不欠拟合(underfitting),也不过拟合; 模型越简单越好。 方法 交叉验证(Cross Validation) 交叉验证 交叉验证(续) 交叉验证(续) 用LOOCV(Leave-One-Out CV)选择模型常常导致轻微的过拟合。 为了避免这个问题,可以采用Leave-k-Out CV,但是 太大,计算费时; 建议采用MCCV(Monte Carlo CV) 也就是从 中随机选择N(当然N )个出来做CV,只要N足够大,MCCV可以较好地逼近Leave-k-Out CV。 交叉验证(续) 变量选择 在变量个数比较多的情况下,部分变量不仅对于建立回归模型没有贡献, 甚至会导致复杂的、难以解释的模型,也会影响模型的预测性能。 目前已经有多种变量选择方法 后向剔除法(Backward elimination) 前向选择法(Forward selection) 逐步回归法(Stepwise regression) 基于回归系数变量选择 UVE(Uninformative Variables Elimination) 全局搜索算法 等等 回归系数 回归系数 变量的重要性可以通过回归系数体现出来 基于回归系数的变量选择算法 1、计算最佳模型复杂度a 2、求模型a的回归系数,并对它们的绝对值排序 3、保留前面部分变量或者剔除最后面的部分变量 回归系数 优点 经过多方比较发现,回归系数的确最能体现变量的重要性 缺点 模型a的选择困难 依赖于单个模型a的回归系数不够稳定 UVE 将原有变量和人工随机变量一起建立模型 用回归系数评估各个变量的稳定性 从原有变量中剔除所有稳定性指标低于随机变量的变量。 这种变量称为uninformative 全局搜索算法 其实变量选择问题就是对每一个变量来说,只有选中(1)和剔除(0)两种选择 因此,变量选择就是要选择一串“010101…..”,使得模型质量更好、复杂度更低。 共有 种不同的组合。 全局搜索算法,如GA,SA,AE和PSO等等。 全局搜索算法 优点 方法简单 缺点 一般只能得到局部极小值点。 本人的工作(一) 多模型融合变量选择 针对基于回归系数变量选择方法的缺点 本人的工作(二) ??? 0、用PLSR建立模型并估计RMSEP 1、将回归系数看作变量被选择的概率 2、根据它来随机选择变量,并建立模型 3、重复步骤2,N次 4、从N个模型中选择具有最小RMSEP的模型,并记录被选择的变量 5、如果这个RMSEP比原来的RMSEP小,转1;否则结束。 本人的工作(二)(续) 第一次迭代(N=200) 本人的工作(二)(续) 第二次迭代(N=200) 本人的工作(二)(续) 参考文献 H.A. Martens and P. Dardenne, “Validation and verification of regression in small data sets,” Chemometrics and Intelligent Laboratory Systems, vol. 44, 1998, pp. 99–121. Q. Xu and Y. Liang, “Monte Carlo cross validation,” Chemometrics and Intelligent Laboratory Systems, vol. 56, 2001, pp. 1–11. V. Centner, D. Massart, O.E.D. Noord, S.D. Jo
您可能关注的文档
最近下载
- 压力管道延期申请.pdf VIP
- 储能电站安全教育培训.pptx VIP
- 储能电站与消防安全课件.pptx VIP
- 计算机网络技术基础(第3版)全套PPT课件.pptx
- 第三课 在计算机中输入汉字(初中信息技术课件).ppt
- 通风空调工程识图与预算—通风空调工程计量与计价.pptx
- 2025年英语-成人高考高起点考试真题及参考答案.docx VIP
- 职业卫生评价考试真题.pdf VIP
- 小学科学新教科版三年级上册2.1.水到哪里去了教案(2025秋版).doc VIP
- 一汽-大众-迈腾MAGOTAN-产品使用说明书-新一代迈腾330TSI DSG尊贵型-FV7187BBDBG-MagotanB8L-201606.pdf
文档评论(0)