- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
高校本科生就餐数据挖掘剖析
高校本科生就餐数据挖掘剖析
摘要:目前高校本科生的身体素质普遍下降,大学生除了加强体育锻炼外,还需要在日常饮食上注意养成良好的习惯。校园卡是高校智能化管理的重要手段和媒介,学生在校园内的各项活动都能通过校园卡后台管理系统反映出来,将学生消费数据从数据库中提取出来,分析学生的三餐消费情况,通过关联分析不同消费属性之间的关联强度得到学生的就餐习惯。对不在食堂就餐的学生,应重点关注这类学生的就餐问题,确保学生按时就餐,不节食。
关键词:本科生;校园卡;饮食消费;数据挖掘;关联规则
1引言
随着经济的快速发展和物质生活水平的提高,很多高校大学生的身体素质却在下降,根据《国民体质监测公报(2014)》调查显示,与前几年相比,学生体质与健康状况总体改善,中小学生身体素质继续呈现稳中向好趋势,而大学生身体素质继续呈现下降趋势。很多高校对学生的体育课程数量作了添加,以期提高学生的身体素质。除了体育锻炼外,是不是存在部分学生因为饮食不规律而导致身体素质下降?如男生熬夜玩游戏导致没有时间吃早餐,女生为了瘦身节食等情况。本论文通过对在校本科生的消费挖掘分析,得到学生的就餐情况,对饮食不规律的学生,校方和老师要加强管理,及时解决存在的问题,培养良好的饮食习惯。
2数据预处理
数据预处理的目的是提高数据质量,通过对所收集的不同来源数据的审核、清理、补充完善等一系列操作,保证数据的挖掘和分析结果。
2.1数据收集
数据收集是根据目的需求,收集所需数据到单个位置以便挖掘分析。由于本校的校园卡管理系统覆盖各个层面,包括多个应用平台,因此本论文的数据分别来源于校园卡管理平台下的综合业务管理子系统(留学生餐厅、馕房消费)、商务子系统(昆仑校区食堂、商店消费)、第三方对接子系统(国际教育大厦水控、商店、休闲吧消费)、POS子系统(温泉校区汉餐及清餐充值、消费)等不同子系统。整理汇总后,本论文从校园卡后台数据库获取的2016-2017学年第一学期138天的消费流水数据量约801万条。
2.2数据清理
数据清理是通过约简数据和属性、纠正错误、填写缺失值等可行性操作来保证数据的质量。本论文对汇总后801万条消费流水数据进行审核后,发现不同子系统平台下的数据格式不同,各属性列所占存储空间也不同,为提高数据的一致性,本论文将采用下列四种不同方式的数据清理。
2.2.1约简数据
本论文的分析主体为在校本科生,因此约简了外国留学生、教职工、研究生等15项与本论文研究无关人员的数据,约简后的数据量为538万条。
2.2.2约简属性
本论文的分析主题为在校本科生的饮食消费,因此约简了开户单位、账户类型、操作员、流水状态、交易单位等16项与学生消费无关的属性。
2.2.3纠正错误
本论文审核数据时发现由于业务操作员的误拼或者输入法的切换冲突等,导致民族学生姓名中的分隔符“?”,错误显示为“?”或“-”等,因此在导人数据库之后纠正错误信息,纠正为正确的“?”。
2.2.4填写缺失值
因为学校现有三个校区,当学生在三个校区之间活动时,偶尔会因为网络延迟或者不同子系统间上传数据而产生乱码,本论文将乱码数据分别归类填写到相应的属性列中。
3数据挖掘分析思路及方法
确定分析思路主要是为了准确、全面分析学生的就餐情况。本论文将从三餐消费维度切人对在校本科生的消费情况作统计、挖掘分析。
3.1三餐分析
每日三餐是学生在校内学习和生活的基础保障,也是学生自我管理的体现,通过对在校本科生的一日三餐统计分析,了解学生的饮食情况,帮助老师规范学生饮食习惯。本论文从日常的消费流水数据中,将学生的三餐根据对应的时间段分别统计,每餐的所有刷卡次数和金额累计为该餐的一次消费和金额,统计出三餐的就餐天数后计算三餐的就餐率,根据各餐的频繁性得到学生的就餐习惯。
3.2算法选择
算法是对问题解决方案的准确而完整的描述,确定分析维度之后,将数据收敛到与分析主题相关的范围,提高数据的处理速度与准确性,然后选择合适、高效的算法来分析。
3.2.1统计分析
统计分析是应用最广泛的数据处理技术,通常三个步骤即可完成对数据的操作,即收集-整理-分析。本论文将不同来源的食堂消费流水数据收集整理后,对学生三餐消费数据进行分析,如统计出各餐的消费人数及天数,查看随着时间的增加,学生的消费天数是否增加,有多少学生能保证规律性就餐,学生的就餐趋势是递增还是递减。
3.2.2关联分析
关联规则挖掘的主要目的在于发现数据中有意义的关联关系。本论文通过创建关联矩阵,查看所有学生的消费金额、天数与总金额之间的关联强度。前面通过统计的方式分别计算机出学生的三餐消费天数和消费金额、学期
原创力文档


文档评论(0)