- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
超饱和设计中的变量筛选-HKBUMATH
超饱和设计中的变量筛选
彭小令
(香港浸会大学数学系 香港)
摘要:在工业生产和科学研究的很多领域中经常存在着因子个数多于试验次数的
问题,而目前能够用在这种数据上的有效的变量筛选方法还很少。本文主要介绍
了两种在现代多元统计中广泛应用的变量选择方法:LASSO 和 SCAD,以及如
何将它们应用到超饱和试验据中筛选出比较重要的因子。
关键词:LASSO ,SCAD,惩罚的最小二乘,超饱和设计。
1.介绍
在科学研究的许多领域,例如社会科学,生物学,化工学等,对于做回归分
析可使用的理论模型较少。即使有理论模型,也可能包含不能直接量测的自变量
(因子)。在这种情况下,研究人员不得不指望于那些可以得到的可能与应变量
有关系的自变量。显然,这样的自变量是很多的,所以,在收集了很多的自变量
的时候,我们就自然会面临着一个自变量选择的问题,因为其中的有些自变量可
能对问题的研究并不重要,也可能实际上与其它自变量重迭。这时,我们所面临
的问题就是怎样在这众多的自变量当中选出一组比较重要的来,这组自变量要足
够少,以便得出的回归模型易于解释并且有较好的预测能力,它又必须充分多,
以便对应变量能够进行合适的描述。
另一方面,在做具体的研究试验特别是工业试验和医学试验时,由于经费,
试验条件等方面的原因,实际上做试验的次数受到很大程度的限制,而在一次实
验中能够的到的潜在的影响因素却可能很多,甚至远远大与试验的次数。在这样
的情况下,采用超饱和设计是一种常用的,并且行之有效的办法。现今超饱和设
计正在受到越来越多的关注,例如Lin (1995)介绍了一种产生系统的超饱和设
计的方法。另外,Fang et al (2000 )提出了一种通过准蒙特卡洛法创建多水平超
饱和设计的方法。对超饱和设计中的数据进行分析,变量选择往往是第一步,也
是重要的一步。而如何从大量的试验因子中筛选出少量对响应变量有影响的,重
要的,又足够解释模型的因子,将是我们这篇文章将要讨论的内容。
在传统的多元统计分析中,有两种常用的变量筛选的方法:一种是最优子集
法,即考虑所有可能的回归模型(由自变量的所有子集组成),再根据研究人员
指定的标准,最终选出一个 “最优”子集。这种方法看起来似乎很理想,但是也
有它比较严重的缺陷,那就是计算量太大,由于需要搜索所有的子集,对于 p
个自变量,全部可能的子集数目就有2p −1个之多,一般来说,当p 的个数大于
30 就没有办法进行计算了。另一种则是逐步回归法,开始它将贡献最大的一个
变量选入回归方程,并且预先确定两个阈值Fin 和Fout ,用于决定变量能否入选
或剔除。逐步回归在每一步有三种可能的功能:a) 将一个新变量引进回归模型,
69
这时相应的F 统计量必须大于Fin ,b) 将一个变量从回归模型中剔除,这时相应
的 F 统计量必须小于Fout ,c) 将回归模型内的一个变量和回归模型外的一个变
量交换位置。但是这种逐步筛选的方法也有它不足的地方,那就是它的不稳定性
[Breiman, 1996],另外它对于超饱和设计也不大适宜 [Westfall et al, 1998] 。
在这篇文章中我们将介绍两种比较新的,基于惩罚的最小二乘的变量选择方
法: (1).“最小的绝对缩减和变量选择算子”(least absolute shrinkage and selection
operator ),简称LASSO [Tibshirani, 1996] ;(2 ).“绝对偏差的平滑缩减”(smoothly
clipped absolute deviation ),简称SCAD [Fan 和 li, 2001 ] 。这两种方法不仅在现
代研究的各个领域中被广泛应用,经过一定的改进以后还可以用于超饱和设计的
变量筛选,并取得了一些好的效果。
2 .惩罚的最小二乘
2 .1 几种惩罚最小二乘的定义
首先我们考虑最一般的线形回归模型:
+
您可能关注的文档
- 负压系统失效检测分析.PDF
- 象一串串风铃.PPT
- 账户试算平衡和编制资产负债表的理论依据课堂练习.PPT
- 财经校区食堂食品卫生安全隐患维修工程广西南宁技师学院.DOC
- 货币流通速度和交易方程式.ppt
- 货物需求清单及技术规格注指标必须满足或-安徽师范大学.PDF
- 货物和服务项目采购-泉州公共资源交易信息网.DOC
- 货物-重庆巴南区人民医院.DOC
- 质地类别食谱软质蓝页猫耳朵细软红页鲜奶蒸布丁香橙果冻细泥.PDF
- 质地诚可贵翠色价更高.DOC
- 销售的年终工作总结 15篇.doc
- 2025年智能零售店数字化营销方案实施方案.docx
- 2025年智慧农业智能农业园区建设实施方案.docx
- 2025年城市建设规划绿色化实施方案.docx
- 2025年新能源汽车充电站建设规划实施方案.docx
- 销售服装工作总结范文.doc
- 《图书馆移动服务在图书馆服务创新中的移动图书馆安全风险管理研究》教学研究课题报告.docx
- 《生态循环农业视域下农业废弃物资源化利用技术体系构建研究》教学研究课题报告.docx
- 小学数学课堂中数学思维训练与解题能力培养研究教学研究课题报告.docx
- 《艺术展览互动性设计中的互动装置艺术与空间体验设计创新实践》教学研究课题报告.docx
原创力文档


文档评论(0)