高职毕业生就业预测模型创建与分析.docVIP

高职毕业生就业预测模型创建与分析.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
高职毕业生就业预测模型创建与分析

高职毕业生就业预测模型创建与分析   摘要:在海量的数据中,可以利用数据挖掘技术找出数据之间的关联关系,通过对数据关系的分析,为决策者提供决策的依据。本文通过对毕业生就业信息的分析,创建一个就业的预测模型,利用该模型来预测毕业生能否顺利就业,找出影响就业的因素,为学院在人才培养方面提供相关的数据支持。   关键词:毕业生 就业 预测模型 创建 分析      高职学院毕业生的就业工作,既是一项关系众多家庭的民生工作,也是一项幸福工程。随着高校毕业生人数的增加,毕业生的就业压力也日渐突出,因而,培养什么样的学生,如何去培养学生,是高校培养人才工作的重中之重。利用数据挖掘技术,可以从以往的毕业生就业数据分析出与就业相关的因素,为人才培养提供决策依据。   1 毕业生就业模型的系统分析   1.1 问题的定义 可以收集学院毕业生的就业信息,通过对这些数据进行分析处理,建立一个毕业生的就业分析模型,从中找出和就业联系紧密的因素,为学校的改革提供决策参考。将收集到的毕业生就业信息录入到数据表中,然后对数据表中的数据进行预处理(清洗),使其适合数据挖掘。将数据随机分成训练集和测试集,选择合适的挖掘方法,利用训练集数据创建初始的预测模型,利用测试集数据对初始预测模型进行验证,经过验证如果不合格,需要重新抽取数据建立模型,否则利用验证后的数据对毕业生进行就业的预测。项目目标说明书如图1所示。   1.2 系统的研究对象 毕业生在就业时选择企业和企业选择毕业生的双向选择,是一个比较复杂的过程。但目前,很多的高职学院提出以“就业为导向”的办学指导思想,也就是学校培养毕业生应当以企业的需求为根本出发点,学校站在企业的角度去考虑应该培养什么类型,什么条件的毕业生,才能够提高就业率,因此,本课题所考虑的实体只有一个:毕业生。根据学院的毕业生就业信息系统分析的结果,可以得到图2所示的毕业生实体模型。   2 毕业生就业分析模型的创建   2.1 创建数据库 根据图2的实体模型,综合毕业生调查报告分析得出结论,将本数据库的字段设置为14个,如???:序号,姓名,性别,成绩,专业名称,班干否,英语水平,计算机水平,综合能力,工资待遇,专业对口否,主观意愿,行业发展,就业否。由于数据挖掘技术中的ID3算法只能处理离散的数据信息,为了能够将收集到的信息进行数字化处理,除姓名字段的类型设置为字符串以外,其余各字段的值的类型设置为整型数据,并将Excel中的数据信息导入到Access表中。   利用数据清理的方法,对收集到的数据进行处理。比如,对于性别字段而言,只有两个值“男”和“女”,因此将所有“男”值替换为数值1,将所有“女”值替换为2。根据该学院的专业设置情况,将“专业”字段总共分为6个大类,其中计算机通信和通信技术专业统称为通信类,将其值设置为0,电子技术应用和信息技术统称为电子类,将其值设置为1,其余的各专业类别有会计类,艺术类,运输管理类和机械制造类,它们的值依次为2,3,4,5。根据这样的处理办法,对其余各字段进行最后的处理。   2.2 创建模型 根据决策树模型的创建要求,需要将数据集随机分成两个部分,一部分是训练集,约三分之二的记录,用于创建就业预测模型;另一部分是测试集,约三分之一的记录,用于验证模型的正确率。由于ID3算法是以信息增益作为属性的度量值,因此,通过计算每个属性的信息增益来选择决策树的当前结点。   为了能够实现预测毕业生的就业是否成功,因此,最终需要的属性为“就业否”,也就是分类属性是“就业否”。该字段包含2种类型的值,它们分别是0,1(未就业、已经就业),经过统计,其中0有144个样本,1有834个样本。样本“就业否”分类所需的期望信息由公式1决定。   I(s1,s2)= (公式1)   由此可以计算出“就业否”的期望信息,I(144,834)=0.60288,然后再计算每一个字段的接下来计算(除“姓名”和“就业否”以外)每一个属性的熵。熵的计算公式由公式2完成。   (公式2)   根据期望信息和熵,可以得到对应的信息增益值。信息增益由公式Gain(A)=I(s1, s2, …, sn)-E(A)计算出来。   因此,计算出来的各字段的信息增益值如下:Gain(专业) =0.0252,Gain(成绩) =0.0312,Gain(班干否)=0.0035,Gain(英语水平)=0.0967,Gain(计算机水平)=0.1077,Gain(综合能力)=0.2557,Gain(工资待遇)=0.0475,Gain(专业对口否)=0.0395,Gain(主观意愿)=0.0783,Gain(行业发展)=0.0482。第一次计算出来的最大值为是“综合能力”,所以“综合能力”是树的根,计算树的其它结点时,必

文档评论(0)

3471161553 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档