浙江大学国家级大学生创新创业训练计划创新训练项目申报书项目.docVIP

下载本文档

73
0
约7.95千字
约 11页
2017-01-14 发布于天津
举报
版权申诉

浙江大学国家级大学生创新创业训练计划创新训练项目申报书项目.doc

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

浙江大学国家级大学生创新创业训练计划创新训练项目申报书项目

浙江大学“国家级大学生创新创业训练计划” 创新训练项目申报书项目名称高维数据的降维和变量选择项目负责人周志鹏院系、年级、专业理学院数学系数学与应用数学联系电话电子邮件 1290711299@ 填表日期 2012年5月12日浙江大学本科生院制表填表说明一、本表要求按顺序逐项填写，填写内容要实事求是，表达要明确严谨。空缺项要填“无”。二、格式要求：申报书中各项内容以Word文档格式填写，表格中的字体为小四号仿宋体，1.5倍行距；表格空间不足的，可以扩展或另附纸张；均用A4纸双面打印，于左侧装订成册。三、申请参加本项目团队人数不得超过3人（1人为立项负责人，参与合作研究者1--2人）。四、申请参加本项目的个人或团队必须聘请教师作为项目指导教师，并请指导教师在申请书上签名。五、本表由立顶负责人所在院系初审，签署意见后，一式三份（均为原件），由院系统一报送本科生院教研处。六、项目负责人在填写本表后，请及时上传到《浙江大学本科生创新网》。项目名称高维数据的降维和变量选择项目来源自主选题 √ 导师科研项目社会企事业申请经费 10000元起止时间 2012年 6 月至 2013 年 6月负责人学号姓名年级所在院系、专业联系电话 E-mail 校、院（系）级SRTP项目（期） 3090103743 周志鹏大三数学系数学与应用数学1290711299@ 第十四期校级SRTP 参加成员 3090103645 章叶大三数学系统计学zhangye@ 第十四期校级SRTP 导师姓名林正炎院系数学系职务/职称教授 E-mail zlin@ 联系电话签名项目研究内容（目前研究的现状、方法、观点、难点、特点） 1.研究内容研究目前 2.课题意义大于数据的个数。针对于高维数据，传统的经典统计推断方法已经不能适用。例如，最小二乘拟合方法将会由于变量之间的相关性而产生“病态性”。因此，为了处理高维数据和海量信息，需要采取合适的方法，降低数据的维数，即“降维”，也称为变量选择（Variables Selection），在计算机数据挖掘领域被称作特征选取（Feature Selection）。另一方面，过多的变量，不仅会使模型变得复杂，而且会降低模型的解释效果和预测能力。因此，变量选择尤为重要，它不仅能够改进模型的效果，而且能够帮助我们更好地理解数据本身的内在联系。对于高维数据的分析，变量选择的作用更加明显，因此，它也成为高维数据分析的重点之一。然而在高维情形下，传统的变量选择方法在具体执行上遇到了瓶颈，具体表现为，随着变量个数的增加，计算量急剧增加。因此，在保证模型选择准确率的前提下，提高执行效率，成为高维变量选择问题研究的关键。假设现有数据，其中是应变量的第个观测，而是相应的维自变量向量。一般，我们认为这些数据是某个总体的一个随机样本，且该总体满足，其中。在考虑变量选择问题时，我们通常假设大部分系数是零，即这些系数对应的变量是与模型不相关的变量。变量选择的目的就是将所有系数非零的变量鉴别出来，并且给出这些非零系数的有效的估计。在高维的数据中，往往很多信息是噪声而非信号，此现象称之为“稀疏性”（sparse）因此如何从众多的信息或变量中提取相关的特征，成为统计建模的关键。稀疏问题就是从众多的信息中如何自动地有效地提取相关的特征，尽可能真实地刻画真实的模型。一般的多元分析问题都可以推广到高维稀疏情况，如稀疏回归，稀疏协方差矩阵，稀疏主成分分析等。 3. 研究方法传统的最优子集法（Best subset selection），是从全体变量中选择一些变量来建模，得到子模型，并用合理的标准来衡量该子模型，最后，选出具有最优标准值的子模型作为最终模型。在具体执行时，最常用的算法是逐步回归法。最优子集法成败的关键在于，如何定义一个合理的标准来衡量模型拟合的优劣。常用的标准有：AIC标准、BIC标准、CV/GCV标准等等。传统的变量选择方法，简单易懂，但是由于其过程的离散性，因此选择结果具有不稳定性，且随着变量个数的增加，计算量急剧增加。在高维数据中，按照正则约束条件和目标优化函数的不同，变量选择方法可分为如下两类：考虑分类模型本身所具有的结构性先验知识，在学习过程中对特征系数施加不同稀疏性正则因子约束。最直接对特