- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
高校贫困生评定模型的建立
摘要:在高校贫困生评定问题上,常常需要从多方面考虑学生个人情况,而高校普遍存在无法确定哪些是重要因素,哪些是无关因素,进而选择考虑尽可能多因素来评定贫困生。本文立足于我国高校贫困生评定问题的现状,提出了基于Lasso Logistic的高校贫困生评定模型。使用Lasso方法从高校以及各地区政策普遍考虑的众多指标中选出最有效的评定指标,用Logistic模型进行了分类预测,最后通过本文得到的结果对现有政策提出了相应的几点建议。
关键词:Lasso Logistic模型;贫困生评定;预测
中图分类号:TP301 文献标识码:A 文章编号:1009-3044(2018)14-0253-03
目前我国在高等教育阶段,已经建立起国家励志奖学金、国家助学金、国家助学贷款、勤工助学、学费减免等多种方式并举的资助体系,直接或间接地为贫困生提供了经济资助。2015年12月9日,教育部发布的《规划纲要》中期评估学生资助专题报告显示,2010-2014年全国学生资助资金共计5564亿元。从受助学生看,2010-2014年全国累计资助学生4.1亿人次,学生资助经费投入和受助学生人数均大幅增长,我国教育公平迈出重大步伐。但是现行的资助体系也存在着问题,一方面贫困生数量大、认定难,不排除其中有随意性,且评定体系不规范,导致评定工作中具有较大的主观色彩,结果不够公平公正。因此,建立一个明确区分学生家庭经济状况的模型来评定助学金人选具有重大的现实意义。
本文将综合考虑学生在校的一卡通消费情况以及家庭情况,因为家庭因素的许多解释变量是定性变量,对其进行数量化需要引入虚拟变量,基于Lasso的Logistic模型可以很好地解决此类问题,使得评定过程更加具有针对性、客观性与透明化。
1 Lasso Logistic方法
1.1 Lasso模型
Lasso模型是由Robert Tibshirani在1996年所提出的一种能够实现指标集合精简的有偏估计方法。
1.2 Lasso Logistic模型
Lasso方法主要应用于线性模型,在估计参数时,系数被压缩,部分系数甚至被压缩到0来实现模型选择,但是对于贫困生评定及预测,其因变量是二元离散取值,应该使用回归模型Lasso Logistic。
2 高校贫困生评定分析
2.1 数据来源及虚拟变量的设置
我们通过问卷调查及一卡通消费情况获得数据,数据集中共有454条记录,包括17个字段,其中前16个字段是对学生一卡通消费数据以及家庭情况的描述,最后一个字段是学生是否为贫困生的评判,对其中的定性变量设置虚拟变量,进行处理及编码后的结果(解释变量16组共41个,因变量1个)见表1。
2.2 数据预处理
1)标准中心化
原始数据中,平均吃饭消费、学习消费、生活消费都是连续性数据,且各类数据相差级别大,单位各不相同,为克服量纲的影响,使模型参数估计系数具有可比性,需要先将其进行标准中心化处理,得到均值为0,标准差为1的服从标准正态分布的数据后再进行分析。
2)划分训练集与测试集
在本文所用数据集中,“贫困生”记录数为189个,“非贫困生”记录数为265个,从两部分数据中独立随机的抽取80%构成训练集,剩余20%作为测试集。
3)设置虚拟变量
通过调用R软件中nnet package的class.ind函数进行虚拟变量的设置。
2.3 模型的建立
1)变量选择与模型估计
本文数据分析的Lasso Logistic模型利用R软件中Glmnet程序包,通过十折交叉验证,得到随着横坐标调和参数值[λ]变化,纵坐标模型误差的变化情况,并在图的最上方给出模型筛选出来的对应变量数,两条虚线中间的取值为[λ]正负标准差的值域范围,左边虚线表示使模型误差最小时的调和参数[λ]的取值。
图1显示随着调和参数[λ]值的变化,模型中41个变量系数的筛选情况,为了尽量获得相对比较重要的变量,[λ]的理想取值应是使压缩程度达到最大,即[λ=e-3.5]。此时,基于Lasso变量选择的Logistic模型参数估计结果如表2所示。
从基于Lasso变量选择的Logistic模型参数估计结果可以看出,对于一卡通的消费,包括平均吃饭消费、学习消费、生活消费对于评定一个学生是否是贫困生都不是必要的因素,其原因是因为一卡通的消费地点限制在学校范围内,各种消费价格差别不是很大,因此在一卡通消费方面不会明显区分出来一个学生是否满足贫困生,此外,经济来源、学费来源、家庭需要赡养老人数、家庭人口、家中是否有重病或残疾人口、家庭是否是建档立卡贫困户、家庭成员的普遍受教育程度、平均月收入、学生的平均月生活费
您可能关注的文档
最近下载
- 牙合架、面弓 培训专用.ppt VIP
- 谐音背单词联想记忆七天背完高中单词打印版.docx VIP
- 八年级语文上册新教材解读课件(统编版2024).pptx
- 建设工程监理质量管理体系技术和档案管理制度汇编样本.doc
- GB 30251-2024 炼化行业单位产品能源消耗限额.pdf VIP
- 香精香料基本知识培训课件.pptx VIP
- 《中华优秀传统文化》教案 第16课 商贸文化.docx VIP
- Unit 5(第1课时 Section A 1a-1d)(教学设计)七年级英语上册(人教版2024).pdf VIP
- 人教版中考英语单词巧记妙背三(单词句子图片结合记忆)课件.pptx VIP
- 第6课 从小爱科学 第1课时(教学设计)2025统编版道德与法治三年级上册.pdf
文档评论(0)