决策树算法在学生就业方向预测中应用研究.docVIP

决策树算法在学生就业方向预测中应用研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
决策树算法在学生就业方向预测中应用研究

决策树算法在学生就业方向预测中应用研究   摘要:学生管理工作中积累了大量的学生信息,有效地利用这些信息将会给学生工作带来极大的便利与帮助。以北京某高校计算机学院学生的信息为基础,利用决策树算法对已有学生的信息进行分类研究,并通过实例验证其可行性,开启学生工作新模式。   关键词:学生信息;数据预处理;决策树;预测;学生工作   中图分类号:TP311.51 文献标识码:A 文章编号:1009-3044(2018)06-0217-03   教育领域积累了大量的学生信息,例如成绩、文体科技活动参加情况以及毕业发展状况等信息,这些信息直接反映了学生在校的学习状态、性格特点甚至发展方向。对学生信息的分析能够指导教学,引导学生工作者工作的展开,对学生的培养和发展起到一定的辅助作用。   目前,对学生数据的利用主要是对学生成绩的简单分析,例如:对学生成绩计算平均学分绩点,排名划分等级线;对修课学分进行统计分析。这类基础分析主要依赖分析人的经验,而缺乏一个客观的广泛的评价标准,在实际中发挥的效用有限。数据挖掘技术能从大量看似无联系的数据发现有用的信息。高等大专类院校学生信息中包含大量有用的信息,对学习成绩、文体科技类竞赛参加情况以及毕业后发展走向进行挖掘能得到许多对学生工作以及就业指导决策有价值的信息。   在对与此相关的项目进行调研分析之后总结出,对于学生信息的分析,文献[1-3]只是停留在对学生信息某一方面的具体分析,没有对学生信息进行总体整合分析,这就有可能导致分析的不够全面对未来发展预测的不准确,并且在预测之后没有对预测的准确率进行估计,这种分析的方法不能确定预测的稳定性与准确性。   本项目将对北京某高校计算机学院学生的各项信息进行整合分析,从一个较为完整的角度通过学生的在校信息对学生未来的发展方向做以预测[5][6],并且对预测的准确率进行计算,以确保估计的可信度。下面将从学生信息收集与预处理、决策树的应用、结果分析以及结束语四部分来进行详细阐述。   1学生信息收集与预处理   本次研究以北京某高校计算机学院2016、2017届毕业生为主要分析对象,采集学生姓名、专业、学习成绩、就业单位以及是否参与过科研竞赛和社团等信息,该数据由学院毕业生指导教师、科研管理教师以及社团管理教师提供,从根本上保证了数据的准确性与可靠性。   收集到的数据大多是以Excel形式进行存储,这些表格在维度、标准上有较大的差异,因此需要对数据进行预处理:   1)数据清洗:通过填写缺失值,光滑噪声数据、删除重复数据、解决不一致性来“清理”数据;   2)数据转换:收集到的数据有一部分是和本项目是不相关,是冗余的,减少不相关数据对数据挖掘的影响是至关重要的。   3)数据规约:数据经过前面的步骤之后已经基本符合要求,但还需要经过规约对数据进行最后一步的规范,使数据量减少,让挖掘的工作量达到更高的效率。   4)数据分类:数据的分类是为了算法能够更好地处理数据。学生的专业分为三种:计算机科学与技术、网络工程、软件工程,为了更为方便的表示,将计算机科学与技术设为1,软件工程设为2,网络工程设为3。成绩按照优秀、良好、中等、合格、不合格,对应为1、2、3、4、5五个等级。其他数据按照类似的方法进行整理。   按表1的处理规则对数据处理后,得到如图1所示的分类图:从左到右分别表示专业分类、竞赛、社团、必修课平均成绩、以及就业单位。   2决策树的应用   决策树算法是数据挖掘算法中一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。决策树的构造可以分为两部分,第一部分是构建决策树,即通过训练数据集产生符合实际需求的数据集,第二部分是通过对已经产生的决策树进行修剪的过程。主要是用训练数据集对决策树进行测试,将对预测结果平衡性的分枝减掉。   在本研究中决策树的应用主要思想是通过使用决策树算法对收集数据预处理后得到训练数据集进行分析建模,然后利用所见模型对未知数据进行预测。预测的好坏的衡量主要体现是预测的准确程度,因此在利用决策树实现分类预测功能的基础上,我们增加了获得预测准确率的方法,从而检验预测结果的准确程度。   具体实现分为两个步骤,第一步是先将构建决策树的数据和预测数据导入并加载,调用weka jar包中的决策树算即i48算法形成决策树,然后会根据决策树的路径做出最优路径,遍历数据对数据进行预测,得到结果后将预测结果写到文件中,具体实现过程如图2所示:   第二步是对决策树的准确率进行测试验证,从收集到的北京某高校计算机学院2016、2017届毕业生的数据即训练数据集中随机抽取部分数据作为测试数据,将构建决策树和测试数据导入并加载。通过i48算法构建好决策树,

文档评论(0)

erterye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档