- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数学建模--高维统计分析
数学建模
高维数据统计分析
来鹏
高维数据统计分析
• 面临的机遇和挑战
• 统计降维模型
• 高维数据降维
• 变量选择p=n
• 超高维变量筛选p=O(exp(cn))
面临的机遇和挑战
• 在过去的几十年内,随着网络的日趋发达和计算
机存储功能的日益强大,受到实际应用的激励,
人们可以搜集到金融市场,基因表达,组合化学
和其他许多领域内的很多大型数据集,高维数据
分析已经变得越来越频繁和重要。
• 过多的协变量使得很多种统计方法无法有效的运
用,而且预测效果也会很差。
• 出现“维数祸根”的问题。
面临的机遇和挑战
• 另一方面,近几年来随着在生物医学方面的研究,人们碰
到的数据集含有十万、百万甚至更多的变量,变量的个数
远远大于数据集样本的个数,pn。
• 当数据中的变量个数p 随着样本量的增加,呈现指数次的
增长,绝大多数的统计分析方法以及变量选择方法都将由
于变量个数的巨大,使得在降维的过程中面临计算量大,
效率低的问题;
• 由于变量个数随样本急剧增加使得变量之间出现假象的高
度相关,变量不可忽略,无法准确降维;
• 各种变量选择方法的应用条件受到质疑,无法满足;
• 原本具有的Oracle性质也变得无法保证。
面临的机遇和挑战
• 调查问卷分析
• 基因组分析
• 金融投资分析
• 社交网络分析
• 文字分类识别
• ……
统计降维模型
• 在处理高维数据时,许多参数和半参数模型被提
出用来避免“维数祸根”的问题。
• 例如:参数模型、可加模型、部分线性模型、单
指标模型、部分线性单指标模型、变系数模型和
变系数部分线性模型等模型。
传统降维方法
• 通过专家进行降维选择
• 统计检验与显著性
• 利用AIC,BIC等最优准则进行子集选择
• 向前回归、向后回归、逐步自回归
• 聚类分析
• 主成分分析
• 因子分析
高维数据降维
• SIR Sliced Inverse Regression 1991,
Ker-Chau Li, JASA.
• SIR :切片逆回归,借助主成分分析的思想,
通过对响应变量Y 的分析,构造X 的降维。
变量选择p=n
• LASSO (Tibshirani, R.J., JRSSB, 1996)
• SCAD (Fan, J.Q., JASA, 2001)
• Adaptive LASSO (Zou, H., JASA, 2006)
超高维数据降维
• SIS (Fan, J.Q., 2008)
• SIRS (Zhu, L.P. et.al, JASA, 2011)
• DC (Li, R.Z. et.al, JASA, 2012)
• Kolmogorov filter (Mai, Q. and Zou, H.,
Biometrika, 2013 )
• Chi-squared based method (Huang, D.Y. et.al,
2015)
SIR切片逆回归方法
A Family of Solutions: Penalization
• Denote L as the log-likelihood function
• MLE: argmax{L}
• Penalized MLE: argmax{L-penalty}
• Old and well-known penalties: AIC/BIC
• Can be easily extended to other M-estimates
文档评论(0)