超高维可加模型下特征筛选-统计学专业论文.docxVIP

下载本文档

6
0
约3.54万字
约 34页
2018-11-28 发布于上海
举报
版权申诉

超高维可加模型下特征筛选-统计学专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

超高维可加模型下特征筛选-统计学专业论文

重庆大学硕重庆大学硕士学位论文目录 III III 目录中文摘要I 英文摘要 II 1 绪论 1 1.1 研究的现实背景和意义 1 1.2 国内外研究现状 1 1.2.1 以惩罚函数为基础的特征筛选方法 2 1.2.2 超高维线性模型的特征筛选方法 2 1.2.3 其它模型下的特征筛选方法 3 1.3 本文研究的主要内容以及结构 3 2 预备知识 5 2.1 几种函数以及符号 5 2.2 用到的引理 5 3 超高维可加模型下的特征筛选方法 7 3.1 模型与步骤 7 3.2 安全筛选性质 8 3.2.1 条件 8 3.2.2 结论 8 3.3 证明过程 9 3.3.1 引理证明 9 3.3.2 定理证明 15 4 模拟 20 4.1 模拟实例 20 4.2 结果分析 21 5 结论以及展望 26 致谢 27 参考文献 28 附录 30 A．作者在攻读学位期间发表或已完成的论文及专利 30 重庆大学重庆大学硕士学位论文 1 绪论 PAGE PAGE 10 1 绪论在本章中，我们将对本文研究的现实背景和意义、国内外研究现状做出详细介绍，并给出本文的内容安排。 1.1 研究的现实背景和意义特征筛选在统计研究中有着举足轻重的地位，我们经常用特征筛选解决一些实际问题，找出隐藏的重要变量，从而帮助我们进行投资分析或者做出预测与决策等等。从最出的子集选择方法开始，研究者对其理论的研究和实际的应用都不断深入，当然也使得它们在相关理论和选择方法应用中都有了很大的进步。在长期的实践应用中，研究者也发现了它们的不足和欠缺。于是，以 LASSO 为基础的惩罚选择方法逐渐出现，但是此种方法仅限于自变量的维数 p 与响应变量的维数 n 的关系为多项式的情况。更有甚者，有的选择方法仅仅适用于低维模型，即自变量的维数 p 低于响应变量的维数 n。随着计算机计算能力的快速进步以及其它先进科学技术的快速发展，数据量的庞大和计算难度的增加在自然科学、工程学、人类学等领域中屡见不鲜。在一些实际问题中，自变量的维数随样本量以非多项式的速度增加，称此种数据为超高维数据。事实证明，超高维数据在各种科学领域中经常出现。例如，在两千股的证券投资分配中，协变量矩阵几乎包含了两百万的参数；在疾病研究中用到的蛋白质数据中，数以万计的分子或离子可能是潜在的预测量；在基因组显隐性之间的基因关系研究中，千千万万的 SNP 可能是潜在的影响变量。现实中的这些庞大的数据为统计研究和计算提出了新的挑战，如何从千千万万的预测量中找出稀疏的重要变量需要特征筛选方法来实现。同时，数据的拟合形式也更加趋于复杂，变得多样化，这一现象也为特征筛选带来困难。因为不同的数据所对应的潜在拟合模型不同，需要的选择方法也不相同。在特征筛选中，选择相应的方法才能得到较好的筛选结果。所以，这也是我们在进行特征筛选时，要考虑的问题。用的比较多的模型有广义线性模型、非参数模型以及半参数模型等等。这不仅促进了特征筛选方法理论研究的进步，同时也促进了程序计算方法的改进和创新。 1.2 国内外研究现状众多研究者在特征筛选研究中提出了各种筛选方法，但一个较好的模型选择方法应该具有以下三个性质，简称正则性，根据文章王大荣和张忠占[1]，可知，其具体内容如下： ①无偏性：当未知参数的真实值比较大时，估计值应该接近于真实值； ②稀疏性：为了减小模型的复杂性，较小的估计值应该自动设置为 0； ③连续性：为了避免预测模型的不稳定性，导出的估计应该关于数据连续。 1.2.1 以惩罚函数为基础的特征筛选方法 Tibshirani[2]于 1996 年首次提出 LASSO 特征筛选方法，此种方法可以同时进行模型选择和参数估计，但可能过度压缩参数，不能有效的处理共线性问题，不能直接处理高维模型，不满足无偏性，故而不具有正则性。Fan 和 Li[3]提出的 SCAD、 Zou[4]提出的 Adaptive LASSO 对 LASSO 做了相应的改进。这两种方法拥有 LASSO 所不具备的正则性，同时不会过度压缩参数。Nicolai Meinshausen[5]对特征筛选方法进一步研究，提出了 Relaxed LASSO。同时 Zou 和 Hastie[6]提出了 elastic net。 Relaxed LASSO 和 elastic net 两种方法在上述基础上，拥有更优良的性质。它们能有效处理共线性问题，且可以处理高维模型，具有正则性。当自变量的维数远远大于样本数时，比如超高维数据，Fan 和 Li[7] ，Fan 和 Lv[8] ，Candes 和 Tao[9]等都表明上述方法无法解决此类数据的特征筛选