- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
决策树分类算法在大学生就业指导中应用研究
决策树分类算法在大学生就业指导中应用研究
摘要:为深入挖掘剖析影响应加大学生求职择业的关键因素及其潜在的相互作用,笔者针对南京信息职业技术学院近年来的毕业生选择推荐就业、自主择业、自主创业或升学、待业等各种情况的决策因素进行了广泛的统计,以数据挖掘分类技术为支撑设计了C4.5算法对各种潜在的影响毕业生就业选择的因素进行了系统化的剖析,从而得出影响应届毕业生就业率的决策模型。本研究的主要意义在于学生可以算法模型在大学在读期间努力完善自己的知识结构,不断增强自身的综合素质及社会竞争力。从而适应日益严峻的就业形势和经济社会发展的需要,提高入职签约成功率。应届毕业生也可以参照算法模型对比自身的素质素养有针对性的选择目标单位进行择业。高等院校则可以根据该算法模型统计各界毕业生的就业指数进行纵向及横向的对比分析,进有针对性的改良教学计划,使院校培养出的毕业生更加符合当代社会的需求,刺激就业率快速增长。
关键词:数据挖掘;分类;决策树;C4.5算法;大学生求职
中图分类号:TP311.13 文献标识码:A 文章编号:1007-9416(2017)05-0151-03
1 C4.5算法
C4.5 算法是对ID3算法的优化改良。与ID3算法不同的是,C4.5算法是以数据增益率为标准来选择决策树的每个节点的节点属性。算法默认选择当前分支节点下数据增益率最高的属性作为当前节点的测试属性。C4.5算法具有的这一特性使得对数据挖掘结果中的样本分类所需的数据量大大减少,而且能够准确的反映出划分的最小随机性或“不纯性”。这种理论方法使得对一个对象分类所需的期望测试数目达到最小,从而设计一棵最为简单的决策树。为了研究的方便,下面对算法中的相关术语给出定义。
定义1:设数据集S为包含S个数据样本的集合,且类别属性可以取m个不同的值,对应于m个不同的类别Ci (i=1,2,…,m)。假设Si为类别Ci中样本的个数;对一个给定数据对象进行分类所需要的信息量,称为S划分前的熵,即:
其中Pi是任意一个数据对象属于类别Ci的概率:。Pi=Si/S。
定义 2:设一个属性A取v个不同的离散属性值{a1,a2,…av}。利用属性A可以将集合S划分为v个子集{S1,S2,…Sv},其中Sj包含了S 集合中属性A取aj值的数据样本。若属性A被选为测试属性,即用属性A 对当前样本集进行划分。设Sij?樽蛹?Sj中属于Ci类别的样本数。那么利用属性A划分当前样
2 挖掘对象及目标确定
本文以南京信息职业技术学院六百名2016届毕业生的就业情况作为研究对象,通过建立C4.5算法比对分析六百位2016届毕业生的学习成绩及个人素质等相关信息得出可能影响学生择业就业的潜在因素,为在校学生有针对性的提高自身素养提供了参考方向,同时也给学校学生工作委员会就业指导中心的专兼任教师调整学校课程安排和就业指导工作的中心提供了理论支撑。
3 数据采集
利用C4.5算法进行数据挖掘分析需要确立具体、可查的研究对象,所以建立算法分析模板前应对可预见的可能影响学生择业就业的潜在因素进行系统化、精细化的搜集整理。数据采集样本的准确程度直接影响了算法分析结果的参考价值。
根据研究分析需要,本文主要从南京信息职业技术学院学生学籍管理系统中“基本信息服务”界面采集了学生“学生基本信息”,从“学习中心-成绩查询服务”界面导出了2016界毕业生的“学生成绩信息”。南京信息职业技术学院学生工作委员会下辖的就业指导中心的同事们向我们提供了2016界相关毕业生的“就业状况信息”。笔者使用随机抽样的方式从调取到的近五千条数据记录中截取了600条相关记录作为本次研究分析的对象。在截取的600条毕业生信息中安排400条数据组成训练数据集,剩余200条数据分配为测试数据集。
从南京信息职业技术学院学生学籍管理系统中“基本信息服务”界面采集了学生“学生基本信息”主要包括以下内容:院系、专业、班级、姓名、学号、性别、能力特长、政治面貌、健康情况、奖惩情况与培训工作经历、社会实践活动等。另外,该界面还显示了诸如民族、籍贯、身份证号等与毕业生就业选择无关或受反歧视、反地方保护政策限制对毕业生就业影响较小的因素,本文不作讨论。
从“学习中心-成绩查询服务”界面导出“学生成绩信息”,主要包括以下属性:学号、姓名、学年、学期、学分、课程性质、总评成绩等。该界面也提供了毕业生英语水平、计算机水平等被用人单位普遍重视的基础技能成绩的查询服务。
由南京信息职业技术学院学生工作委员会就业指导中心提供的毕业生“就业状况信息”主要包括以下属性:专业、班级、学号、姓名、就业单位、单位性质、单位通信地址、单位联系方式、单位效益等。
4 数据集成
本文研
您可能关注的文档
- 冠脉介入治疗对冠心病急性心肌梗死患者治疗效果及对血浆BNP水平影响.doc
- 冠脉介入治疗对不稳定型心绞痛冠心病患者血清炎性因子水平影响.doc
- 冠脉介入诊疗与痛风发作相关性研究进展.doc
- 冠脉介入诊疗术后并发症原因分析及护理进展.doc
- 冠脉介入诊疗术后发生对比剂肾病危险因素分析及预防.doc
- 冠脉内应用替罗非班在急性心肌梗死急诊经皮冠状动脉介入术中效果观察.doc
- 冠脉内注射血小板糖蛋白IIbIIIa受体拮抗剂对急性心肌梗死再灌注影响.doc
- 冠脉分叉病变介入治疗时小直径半顺应性球囊应用临床分析.doc
- 冠脉慢血流患者脉搏波传导速度和踝臂指数变化及意义.doc
- 冠脉搭桥与支架置入治疗冠心病多支病变预后评价.doc
文档评论(0)