基于K近邻相似决策树算法在学生就业管理中应用.docVIP

下载本文档

6
0
约4.76千字
约 11页
2018-06-24 发布于福建
举报
版权申诉

基于K近邻相似决策树算法在学生就业管理中应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于K近邻相似决策树算法在学生就业管理中应用

基于K近邻相似决策树算法在学生就业管理中应用　　[摘要] 由于现在的就业形势越来越严峻，就业压力越来越大，因此需要学校对大量历届学生就业的历史数据进行挖掘，发现内在的规律和联系，为就业指导提供决策依据，对学生做出针对性的指导，以提高学生的就业率和就业质量。文章基于K近邻相似的决策树算法可以较好地根据学生的基本信息进行挖掘，对学生潜在的工作做出预测，使不同的学生可以根据自己的情况对工作进行针对性的准备，从而可以更好的就业。　　[关键词] 决策树；K近邻；就业管理；就业预测　　[作者简介] 韦金日，广西工业职业技术学院讲师，广西大学计算机与电子信息学院在职研究生学历，研究方向：计算机网络与并行分布式计算，广西南宁，530003；李雪萍，广西工业职业技术学院讲师，硕士研究生，研究方向：网络与并行计算，广西南宁，530003 　　[中图分类号] G64 [文献标???码] A [文章编号] 1007-7723（2013）05-0073-0003 　　随着我国高等教育由精英教育向大众教育的转变，高等学校的招生规模不断扩大，各高校纷纷开始利用信息化手段对教学、就业工作进行管理，并收到良好的效果。但是，由于招生人数的扩大使得学生信息系统数据库存储的数据量急剧扩增，面对巨大的数据集合，传统的数据分析手段已经日渐力不从心。这是因为传统的信息系统是基于查询的，数据库可以很好地实现对数据的存储和查询等功能，但是这些数据之间的内在关系和隐含的有用信息无法被获取，数据中存在的关系和规则无法被发现，无法利用现在的数据预测未来的发展趋势，缺乏挖掘数据背后隐藏知识的手段[1]。　　数据挖掘技术就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先未知的但又是潜在有用的信息和知识的过程[2]。对于存在着的庞大的历史信息，可以使用数据挖掘技术挖掘出毕业生就业信息中隐藏的有用因素和内在联系，从而促进学校进行教学改革，指导学生提高自身素质和知识结构，从而最大程度地提高毕业生的就业率和就业质量[3]。　　本文将以从某高校学生管理信息系统中获取的实际数据作为样本数据集，利用K近邻相似的决策树算法进行挖掘和分析，从而预测出学生可能的就业情况。　　一、决策树算法　　决策树是一种基本的分类方法，决策树模型呈树形结构，在分类问题中，表示基于特征对实例进行分类的过程[4]。　　决策树的建树过程是从根节点开始，对每个非叶子节点，找出其对应样本集中的一个属性，称为测试属性，对样本集进行测试，根据不同的测试结果将训练样本集划分成若干个子样本集，每个子样本集构成一个新叶节点，对新叶节点再重复上述划分过程，这样不断循环，直至达到特定的终止条件。其中，测试属性的选择和如何划分样本集是构建决策树的关键环节。不同的决策树算法使用不同的技术。从根节点到叶子节点的路径描述了各种分类规则，可以认为是if-then规则的集合。因此，决策树模型具有良好的可读性且分类速度快，是一种简单易行的分类方法[5]。　　决策树学习通常包括三个步骤：特征选择、决策树的生成和决策树的剪枝。根据属性选择度量方法的不同，可以给出不同的决策树算法。建树的过程通常分为两个阶段：建树阶段和剪枝阶段。修剪按其进行的时间顺序可分为先剪枝和后剪枝。先剪枝是在决策树的构建过程中利用一定的技术进行判断，比如可以设置一定的阀值，若可能生成异常分枝，则停止此分枝的生成，即将此生成的分枝剪去；后剪枝则是待决策树完全生成后，运用特定的剪枝算法对整棵树进行修剪。　　构建决策树模型大致可以分为两步，第一步是利用训练集建立决策树模型。这个过程实际上是一个从训练集中获取知识，进行机器学习的过程。第二步是利用生成的决策树对输入数据进行分类。对输入的纪录，从根节点依次测试记录的属性值，直到到达某个叶子节点，从而找到该记录所属的类。　　常用的属性选择度量有：信息增益、信息增益率和Gini指标。信息增益来自于信息论中的概念，表示已知特征的信息使得类的信息不确定性减小的程度[6]。　　（一）信息增益　　设数据集S包含n个数据样本，类别集合为 C■，C■…，C■。记Si为类别Ci中的样本个数，显然有■S■=n 。对一个给定数据对象进行分类的期望信息为：　　I（s■，s■，…s■）=-■p■log■（p■）　　其中p■是类别Ci发生的概率，可以由式子Si/n估计。　　若属性A有互不相同的v个值a■，a■，…a■，根据属性A将S划分为v个子集S■，S■，…S■ ，Sj中数据样本取值均为aj，记Sj的样本数为Sj=n■，则S■（a■）的发生概率为nj/n。记子集S■中属于Ci类的样本数为S■，则集合S■中具有类别Ci的条件概率为Sij/n。如果A被选做测试属性，根据A