高职毕业生就业预测模型创建与分析.docVIP

下载本文档

17
0
约3.29千字
约 8页
2018-09-28 发布于福建
举报
版权申诉

高职毕业生就业预测模型创建与分析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

高职毕业生就业预测模型创建与分析

高职毕业生就业预测模型创建与分析　　摘要：在海量的数据中，可以利用数据挖掘技术找出数据之间的关联关系，通过对数据关系的分析，为决策者提供决策的依据。本文通过对毕业生就业信息的分析，创建一个就业的预测模型，利用该模型来预测毕业生能否顺利就业，找出影响就业的因素，为学院在人才培养方面提供相关的数据支持。　　关键词：毕业生就业预测模型创建分析　　　　高职学院毕业生的就业工作，既是一项关系众多家庭的民生工作，也是一项幸福工程。随着高校毕业生人数的增加，毕业生的就业压力也日渐突出，因而，培养什么样的学生，如何去培养学生，是高校培养人才工作的重中之重。利用数据挖掘技术，可以从以往的毕业生就业数据分析出与就业相关的因素，为人才培养提供决策依据。　　1 毕业生就业模型的系统分析　　1.1 问题的定义可以收集学院毕业生的就业信息，通过对这些数据进行分析处理，建立一个毕业生的就业分析模型，从中找出和就业联系紧密的因素，为学校的改革提供决策参考。将收集到的毕业生就业信息录入到数据表中，然后对数据表中的数据进行预处理（清洗），使其适合数据挖掘。将数据随机分成训练集和测试集，选择合适的挖掘方法，利用训练集数据创建初始的预测模型，利用测试集数据对初始预测模型进行验证，经过验证如果不合格，需要重新抽取数据建立模型，否则利用验证后的数据对毕业生进行就业的预测。项目目标说明书如图1所示。　　1.2 系统的研究对象毕业生在就业时选择企业和企业选择毕业生的双向选择，是一个比较复杂的过程。但目前，很多的高职学院提出以“就业为导向”的办学指导思想，也就是学校培养毕业生应当以企业的需求为根本出发点，学校站在企业的角度去考虑应该培养什么类型，什么条件的毕业生，才能够提高就业率，因此，本课题所考虑的实体只有一个：毕业生。根据学院的毕业生就业信息系统分析的结果，可以得到图2所示的毕业生实体模型。　　2 毕业生就业分析模型的创建　　2.1 创建数据库根据图2的实体模型，综合毕业生调查报告分析得出结论，将本数据库的字段设置为14个，如???：序号，姓名，性别，成绩，专业名称，班干否，英语水平，计算机水平，综合能力，工资待遇，专业对口否，主观意愿，行业发展，就业否。由于数据挖掘技术中的ID3算法只能处理离散的数据信息，为了能够将收集到的信息进行数字化处理，除姓名字段的类型设置为字符串以外，其余各字段的值的类型设置为整型数据，并将Excel中的数据信息导入到Access表中。　　利用数据清理的方法，对收集到的数据进行处理。比如，对于性别字段而言，只有两个值“男”和“女”，因此将所有“男”值替换为数值1，将所有“女”值替换为2。根据该学院的专业设置情况，将“专业”字段总共分为6个大类，其中计算机通信和通信技术专业统称为通信类，将其值设置为0，电子技术应用和信息技术统称为电子类，将其值设置为1，其余的各专业类别有会计类，艺术类，运输管理类和机械制造类，它们的值依次为2，3，4，5。根据这样的处理办法，对其余各字段进行最后的处理。　　2.2 创建模型根据决策树模型的创建要求，需要将数据集随机分成两个部分，一部分是训练集，约三分之二的记录，用于创建就业预测模型；另一部分是测试集，约三分之一的记录，用于验证模型的正确率。由于ID3算法是以信息增益作为属性的度量值，因此，通过计算每个属性的信息增益来选择决策树的当前结点。　　为了能够实现预测毕业生的就业是否成功，因此，最终需要的属性为“就业否”，也就是分类属性是“就业否”。该字段包含2种类型的值，它们分别是0，1（未就业、已经就业），经过统计，其中0有144个样本，1有834个样本。样本“就业否”分类所需的期望信息由公式1决定。　　I（s1，s2）= （公式1）　　由此可以计算出“就业否”的期望信息，I（144，834）=0.60288，然后再计算每一个字段的接下来计算（除“姓名”和“就业否”以外）每一个属性的熵。熵的计算公式由公式2完成。　　（公式2）　　根据期望信息和熵，可以得到对应的信息增益值。信息增益由公式Gain(A)=I(s1， s2， …， sn)－E(A)计算出来。　　因此，计算出来的各字段的信息增益值如下：Gain(专业) =0.0252，Gain(成绩) =0.0312，Gain（班干否）=0.0035，Gain（英语水平）=0.0967，Gain（计算机水平）=0.1077，Gain（综合能力）=0.2557，Gain（工资待遇）=0.0475，Gain（专业对口否）=0.0395，Gain（主观意愿）=0.0783，Gain（行业发展）=0.0482。第一次计算出来的最大值为是“综合能力”，所以“综合能力”是树的根，计算树的其它结点时，必