- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浙江大学国家级大学生创新创业训练计划创新训练项目申报书项目
浙江大学“国家级大学生创新创业训练计划”
创新训练项目申报书
项目名称 高维数据的降维和变量选择
项目负责人 周志鹏
院系、年级、专业 理学院数学系数学与应用数学
联系电话
电子邮件 1290711299@
填表日期 2012年5月12日
浙江大学本科生院制表
填表说明
一、本表要求按顺序逐项填写,填写内容要实事求是,表达要明确严谨。空缺项要填“无”。
二、格式要求:申报书中各项内容以Word文档格式填写,表格中的字体为小四号仿宋体,1.5倍行距;表格空间不足的,可以扩展或另附纸张;均用A4纸双面打印,于左侧装订成册。
三、申请参加本项目团队人数不得超过3人(1人为立项负责人,参与合作研究者1--2人)。
四、申请参加本项目的个人或团队必须聘请教师作为项目指导教师,并请指导教师在申请书上签名。
五、本表由立顶负责人所在院系初审,签署意见后,一式三份(均为原件),由院系统一报送本科生院教研处。
六、项目负责人在填写本表后,请及时上传到《浙江大学本科生创新网》。
项目名称 高维数据的降维和变量选择 项目来源 自主选题 √ 导师科研项目 社会企事业 申请经费 10000元 起止时间 2012年 6 月至 2013 年 6月 负责人 学号 姓名 年级 所在院系、专业 联系电话 E-mail 校、院(系)级SRTP项目(期) 3090103743 周志鹏 大三 数学系数学与应用数学1290711299@ 第十四期校级SRTP 参加成员 3090103645 章叶 大三 数学系统计学zhangye@ 第十四期校级SRTP 导师 姓名 林正炎 院系 数学系 职务/职称 教授 E-mail zlin@ 联系电话 签名 项目研究内容(目前研究的现状、方法、观点、难点、特点)
1.研究内容
研究目前
2.课题意义
大于数据的个数。针对于高维数据,传统的经典统计推断方法已经不能适用。例如,最小二乘拟合方法将会由于变量之间的相关性而产生“病态性”。因此,为了处理高维数据和海量信息,需要采取合适的方法,降低数据的维数,即“降维”,也称为变量选择(Variables Selection),在计算机数据挖掘领域被称作特征选取(Feature Selection)。另一方面,过多的变量,不仅会使模型变得复杂,而且会降低模型的解释效果和预测能力。因此,变量选择尤为重要,它不仅能够改进模型的效果,而且能够帮助我们更好地理解数据本身的内在联系。对于高维数据的分析,变量选择的作用更加明显,因此,它也成为高维数据分析的重点之一。然而在高维情形下,传统的变量选择方法在具体执行上遇到了瓶颈,具体表现为,随着变量个数的增加,计算量急剧增加。因此,在保证模型选择准确率的前提下,提高执行效率,成为高维变量选择问题研究的关键。
假设现有数据,其中是应变量的第个观测,而是相应的维自变量向量。一般,我们认为这些数据是某个总体的一个随机样本,且该总体满足,其中 。在考虑变量选择问题时,我们通常假设大部分系数是零,即这些系数对应的变量是与模型不相关的变量。变量选择的目的就是将所有系数非零的变量鉴别出来,并且给出这些非零系数的有效的估计。
在高维的数据中,往往很多信息是噪声而非信号,此现象称之为“稀疏性”(sparse)因此如何从众多的信息或变量中提取相关的特征,成为统计建模的关键。稀疏问题就是从众多的信息中如何自动地有效地提取相关的特征,尽可能真实地刻画真实的模型。一般的多元分析问题都可以推广到高维稀疏情况,如稀疏回归,稀疏协方差矩阵,稀疏主成分分析等。 3. 研究方法
传统的最优子集法(Best subset selection),是从全体变量中选择一些变量来建模,得到子模型,并用合理的标准来衡量该子模型,最后,选出具有最优标准值的子模型作为最终模型。在具体执行时,最常用的算法是逐步回归法。最优子集法成败的关键在于,如何定义一个合理的标准来衡量模型拟合的优劣。常用的标准有:AIC标准、BIC标准、CV/GCV标准等等。传统的变量选择方法,简单易懂,但是由于其过程的离散性,因此选择结果具有不稳定性,且随着变量个数的增加,计算量急剧增加。
在高维数据中,按照正则约束条件和目标优化函数的不同,变量选择方法可分为如下两类:
考虑分类模型本身所具有的结构性先验知识,在学习过程中对特征系数施加不同稀疏性正则因子约束。最直接对特
文档评论(0)