超高维可加模型下特征筛选-统计学专业论文.docxVIP

超高维可加模型下特征筛选-统计学专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
超高维可加模型下特征筛选-统计学专业论文

重庆大学硕 重庆大学硕士学位论文 目 录 III III 目 录 中文摘要I 英文摘要 II 1 绪 论 1 1.1 研究的现实背景和意义 1 1.2 国内外研究现状 1 1.2.1 以惩罚函数为基础的特征筛选方法 2 1.2.2 超高维线性模型的特征筛选方法 2 1.2.3 其它模型下的特征筛选方法 3 1.3 本文研究的主要内容以及结构 3 2 预备知识 5 2.1 几种函数以及符号 5 2.2 用到的引理 5 3 超高维可加模型下的特征筛选方法 7 3.1 模型与步骤 7 3.2 安全筛选性质 8 3.2.1 条件 8 3.2.2 结论 8 3.3 证明过程 9 3.3.1 引理证明 9 3.3.2 定理证明 15 4 模 拟 20 4.1 模拟实例 20 4.2 结果分析 21 5 结论以及展望 26 致 谢 27 参考文献 28 附 录 30 A.作者在攻读学位期间发表或已完成的论文及专利 30 重庆大学 重庆大学硕士学位论文 1 绪 论 PAGE PAGE 10 1 绪 论 在本章中,我们将对本文研究的现实背景和意义、国内外研究现状做出详细 介绍,并给出本文的内容安排。 1.1 研究的现实背景和意义 特征筛选在统计研究中有着举足轻重的地位,我们经常用特征筛选解决一些 实际问题,找出隐藏的重要变量,从而帮助我们进行投资分析或者做出预测与决 策等等。从最出的子集选择方法开始,研究者对其理论的研究和实际的应用都不 断深入,当然也使得它们在相关理论和选择方法应用中都有了很大的进步。在长 期的实践应用中,研究者也发现了它们的不足和欠缺。于是,以 LASSO 为基础的 惩罚选择方法逐渐出现,但是此种方法仅限于自变量的维数 p 与响应变量的维数 n 的关系为多项式的情况。更有甚者,有的选择方法仅仅适用于低维模型,即自变 量的维数 p 低于响应变量的维数 n。 随着计算机计算能力的快速进步以及其它先进科学技术的快速发展,数据量 的庞大和计算难度的增加在自然科学、工程学、人类学等领域中屡见不鲜。在一 些实际问题中,自变量的维数随样本量以非多项式的速度增加,称此种数据为超 高维数据。事实证明,超高维数据在各种科学领域中经常出现。例如,在两千股 的证券投资分配中,协变量矩阵几乎包含了两百万的参数;在疾病研究中用到的 蛋白质数据中,数以万计的分子或离子可能是潜在的预测量;在基因组显隐性之 间的基因关系研究中,千千万万的 SNP 可能是潜在的影响变量。现实中的这些庞 大的数据为统计研究和计算提出了新的挑战,如何从千千万万的预测量中找出稀 疏的重要变量需要特征筛选方法来实现。 同时,数据的拟合形式也更加趋于复杂,变得多样化,这一现象也为特征筛 选带来困难。因为不同的数据所对应的潜在拟合模型不同,需要的选择方法也不 相同。在特征筛选中,选择相应的方法才能得到较好的筛选结果。所以,这也是 我们在进行特征筛选时,要考虑的问题。用的比较多的模型有广义线性模型、非 参数模型以及半参数模型等等。这不仅促进了特征筛选方法理论研究的进步,同 时也促进了程序计算方法的改进和创新。 1.2 国内外研究现状 众多研究者在特征筛选研究中提出了各种筛选方法,但一个较好的模型选择 方法应该具有以下三个性质,简称正则性,根据文章王大荣和张忠占[1],可知,其 具体内容如下: ①无偏性:当未知参数的真实值比较大时,估计值应该接近于真实值; ②稀疏性:为了减小模型的复杂性,较小的估计值应该自动设置为 0; ③连续性:为了避免预测模型的不稳定性,导出的估计应该关于数据连续。 1.2.1 以惩罚函数为基础的特征筛选方法 Tibshirani[2]于 1996 年首次提出 LASSO 特征筛选方法,此种方法可以同时进行 模型选择和参数估计,但可能过度压缩参数,不能有效的处理共线性问题,不能 直接处理高维模型,不满足无偏性,故而不具有正则性。Fan 和 Li[3]提出的 SCAD、 Zou[4]提出的 Adaptive LASSO 对 LASSO 做了相应的改进。这两种方法拥有 LASSO 所不具备的正则性,同时不会过度压缩参数。Nicolai Meinshausen[5]对特征筛选方 法进一步研究,提出了 Relaxed LASSO。同时 Zou 和 Hastie[6]提出了 elastic net。 Relaxed LASSO 和 elastic net 两种方法在上述基础上,拥有更优良的性质。它们能 有效处理共线性问题,且可以处理高维模型,具有正则性。 当自变量的维数远远大于样本数时,比如超高维数据,Fan 和 Li[7] ,Fan 和 Lv[8] ,Candes 和 Tao[9]等都表明上述方法无法解决此类数据的特征筛选

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档