决策树分类算法在大学生就业指导中的应用研究.docxVIP

  • 6
  • 0
  • 约2.4千字
  • 约 5页
  • 2019-03-14 发布于贵州
  • 举报

决策树分类算法在大学生就业指导中的应用研究.docx

决策树分类算法在大学生就业指导中的应用研究

决策树分类算法在大学生就业指导中的应用研究   摘要:为深入挖掘剖析影响应加大学生求职择业的关键因素及其潜在的相互作用,笔者针对南京信息职业技术学院近年来的毕业生选择推荐就业、自主择业、自主创业或升学、待业等各种情况的决策因素进行了广泛的统计,以数据挖掘分类技术为支撑设计了算法对各种潜在的影响毕业生就业选择的因素进行了系统化的剖析,从而得出影响应届毕业生就业率的决策模型。本研究的主要意义在于学生可以算法模型在大学在读期间努力完善自己的知识结构,不断增强自身的综合素质及社会竞争力。从而适应日益严峻的就业形势和经济社会发展的需要,提高入职签约成功率。应届毕业生也可以参照算法模型对比自身的素质素养有针对性的选择目标单位进行择业。高等院校则可以根据该算法模型统计各界毕业生的就业指数进行纵向及横向的对比分析,进有针对性的改良教学计划,使院校培养出的毕业生更加符合当代社会的需求,刺激就业率快速增长。   关键词:数据挖掘;分类;决策树;算法;大学生求职   中图分类号: 文献标识码:A 文章编号:1007--0151-03   1 算法    算法是对ID3算法的优化改良。与ID3算法不同的是,算法是以数据增益率为标准来选择决策树的每个节点的节点属性。算法默认选择当前分支节点下数据增益率最高的属性作为当前节点的测试属性。算法具有的这一特性使得对数据挖掘结果中的样本分类所需的数据量大大减少,而且能够准确的反映出划分的最小随机性或“不纯性”。这种理论方法使得对一个对象分类所需的期望测试数目达到最小,从而设计一棵最为简单的决策树。为了研究的方便,下面对算法中的相关术语给出定义。   定义1:设数据集S为包含S个数据样本的集合,且类别属性可以取m个不同的值,对应于m个不同的类别Ci 。假设Si为类别Ci中样本的个数;对一个给定数据对象进行分类所需要的信息量,称为S划分前的熵,即:   其中Pi是任意一个数据对象属于类别Ci的概率:。Pi=Si/S。   定义 2:设一个属性A取v个不同的离散属性值{a1,a2,…av}。利用属性A可以将集合S划分为v个子集{S1,S2,…Sv},其中Sj包含了S 集合中属性A取aj值的数据样本。若属性A被选为测试属性,即用属性A 对当前样本集进行划分。设Sij?樽蛹?Sj中属于Ci类别的样本数。那么利用属性A划分当前样   2 挖掘对象及目标确定   本文以南京信息职业技术学院六百名XX届毕业生的就业情况作为研究对象,通过建立算法比对分析六百位XX届毕业生的学习成绩及个人素质等相关信息得出可能影响学生择业就业的潜在因素,为在校学生有针对性的提高自身素养提供了参考方向,同时也给学校学生工作委员会就业指导中心的专兼任教师调整学校课程安排和就业指导工作的中心提供了理论支撑。   3 数据采集   利用算法进行数据挖掘分析需要确立具体、可查的研究对象,所以建立算法分析模板前应对可预见的可能影响学生择业就业的潜在因素进行系统化、精细化的搜集整理。数据采集样本的准确程度直接影响了算法分析结果的参考价值。   根据研究分析需要,本文主要从南京信息职业技术学院学生学籍管理系统中“基本信息服务”界面采集了学生“学生基本信息”,从“学习中心-成绩查询服务”界面导出了XX界毕业生的“学生成绩信息”。南京信息职业技术学院学生工作委员会下辖的就业指导中心的同事们向我们提供了XX界相关毕业生的“就业状况信息”。笔者使用随机抽样的方式从调取到的近五千条数据记录中截取了600条相关记录作为本次研究分析的对象。在截取的600条毕业生信息中安排400条数据组成训练数据集,剩余200条数据分配为测试数据集。   从南京信息职业技术学院学生学籍管理系统中“基本信息服务”界面采集了学生“学生基本信息”主要包括以下内容:院系、专业、班级、姓名、学号、性别、能力特长、政治面貌、健康情况、奖惩情况与培训工作经历、社会实践活动等。另外,该界面还显示了诸如民族、籍贯、身份证号等与毕业生就业选择无关或受反歧视、反地方保护政策限制对毕业生就业影响较小的因素,本文不作讨论。   从“学习中心-成绩查询服务”界面导出“学生成绩信息”,主要包括以下属性:学号、姓名、学年、学期、学分、课程性质、总评成绩等。该界面也提供了毕业生英语水平、计算机水平等被用人单位普遍重视的基础技能成绩的查询服务。   由南京信息职业技术学院学生工作委员会就业指导中心提供的毕业生“就业状况信息”主要包括以下属性:专业、班级、学号、姓名、就业单位、单位性质、单位通信地址、单位联系方式、单位效益等。   4 数据集成   本文研究的初始数据即从数据采集流程中“学生基本信息”、“学生成绩信息”及“就业状况信息”三个数据库选取。为了进一步提高数据挖掘质量,提高算法效能我们需要将采集到的数据进行集成处理,即

文档评论(0)

1亿VIP精品文档

相关文档