大数据时代高校助学评审体系构建与思考.doc

下载文档 降价啦

1
0
约3.03千字
约 6页
2017-06-01 发布于福建
举报
版权申诉
保障服务

大数据时代高校助学评审体系构建与思考.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大数据时代高校助学评审体系构建与思考

大数据时代高校助学评审体系的构建与思考　　摘要：贫困生认定是高校助学工作中的重点和难点。大数据时代的到来，给高校应用信息化手段开展助学评定工作提供了技术支持，该文对如何在基于数据挖掘等理论基础上设计高校助学体系阐述了总体框架，并对其中部分关键技术进行了分析关键词：助学体系；数据挖掘；AHP 中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2016）28-0001-03 贫困生资助工作是高校扶助家庭困难学生顺利完成学业的一项重要举措，如何构建科学的助学体系是高校乃至全社会所面临的一个重大课题。自2007年国家在普通高校中施行助学政策以来，我国高校的助学体系已逐步形成了由“奖贷助补减”等多项措施全面并行的局面，使无数贫困学生从中受益。然而，目前高校贫困生资助工作依然存在着一些困难和问题。其中，缺乏科学合理的贫困生认定标准是目前高校在贫困生资助工作中普遍遇到的主要困难【1】。对于刚入学的新生来说，能提供为判别依据的仅有一张家庭经济情况调查表，而且更令人遗憾的是表中“家庭人均年收入”这最关键的一栏信息无从考证，出现有些学生瞒报少报家庭收入或者夸大家庭经济困难的现象，而当地的民政部门也不可能详细掌握每家每户的普通百姓的具体收入情况，这就给贫困生的甄别带来了极大的障碍。随着大数据时代的到来，如何运用各种信息处理技术来解决贫困生认定工作中的难题成为各高校研究的热点之一。本文将对应用数据挖掘和AHP等技术来构建助学评审系统做初步的探讨 1 高校助学评审系统总体设计框架近十年来高校助学工作的开展和取得的成果为我们积累了宝贵的经验，不少高校学生工作者纷纷撰文，就贫困生认定的具体工作细节提出了许多宝贵的建议和方法。本文所要阐述的运用数据挖掘技术设计出的评审系统与之并不排斥，即并非完全摈弃过去传统的评审模式，而是为助学评审环节提供一个尽量科学的参考。最终的评审结果必然还是由评审老师酌情认定而不应由机器自动“识别”。因此，本文所提出的助学评审体系是建立在如图1所示的设计框架之上 2 助学评审体系中的数据挖掘等关键技术探讨数据挖掘技术问世以后在很多领域有了优秀的表现。于是有些高校工作者开始考虑将数据挖掘技术应用于助学评审工作[2]中来。常用的挖掘技术是使用关联规则（改进APRIOR算法等）推出学生信息与贫困程度的关联程度，但笔者以为，仅凭单纯的挖掘就得出结论是欠准确的，因为k频繁集的背后也许有尚不为知的k+1 项起作用，在置信度不高的条件下有误导的可能。例如校园一卡通消费情况，由“月消费在200元以下”这个事件推出“贫困”的置信度可能达到了70%以上，但也说明了有30%的可能是由于该生在减肥或是食堂菜不爱吃等其他原因。如果将该生身高体重比、性别、家庭月收入、体育馆每周光顾次数等相关事件加进来统计则有可能会帮助判别该生是否是在减肥，但随之而带来的问题是事件集的膨胀和支持度的下降。不论何种情况，该学生的情况不能简单地只由几个事件（以下称为“评价指标”）就下结论，而应尽可能地综合考虑其他各项“指标”，避免一叶障目妄下定语。需要强调的是，本文中关联规则的运用有所不同，它仅仅是第一步和最后一步：用来发现和验证评价指标 2.1利用关联规则发现和验证评价指标评审体系应由许多评价指标共同构成。评价指标的确定要遵循以下原则：1）科学性；2）可行性；3）可测性；4）动态完善性【3】。表1列出和总结了目前高校在贫困生认定中最常用的指标【4】。其中位于顶层的指标可称为一级指标，一级指标以下的分指标称为二级指标，依此类推。指标最初可以是专家设计或经验总结，以后随着数据库中的信息量日益增多和完善，可运用数据挖掘技术“发现”并增加潜在的评价指标。其实现的主要手段就是利用关联规则。关联规则是数据挖掘中最基本的技术之一，其原理是：假设I={i1， i2im}是一个项目集合，T={t1， t2tn}是一个（数据库）事务集合，其中每个事务ti是一个项目集合，并满足ti?I。则一个关联规则即是一个如下形式的蕴涵关系：支持度的值过小则表明此关联事件有可能只是偶然发生，而置信度如果太低则表示从X推断出Y的可靠度不高。Aprior算法是实现关联规则的主要算法，并有各种改进版本，其原理主要是通过迭代地发现频繁集来实现，本文由于篇幅限制不再介绍。实际工作中我们大可不必自己编程去实现Aprior算法，有些数据库软件如SQL Server 2008等自带了关联算法并可设置其各种参数，另外还有诸如SPSS、Weka等挖掘工具软件，我们可以利用这些现成的工具很方便地进行挖掘，所要做的只是数据清洗和最终的发现与验证工作。接下来再通过设置合理的置信度和支持度，并可结合重要性（即改善度lift）等其他参数进行综合分析，从