- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于决策树C5.0算法员工职称晋级评估研究
基于决策树C5.0算法员工职称晋级评估研究
[摘 要]本文在某企业人力资源管理系统数据库的基础上,利用数据挖掘技术对企业职工的人事档案信息进行深度挖掘。基于决策树的C5.0算法,构建企业员工职业晋升的评判模型,生成职业晋升评判规则集,从而实现对企业员工职业晋升的自动评判,并针对不同员工进行定向信息推送,帮助人事部门有效提高管理效率,为企业实现人力资源的优化配置提供助力。
[关键词]人事档案;数字化;人力资源管理;决策树
doi:10.3969/j.issn.1673 - 0194.2018.08.029
[中图分类号]TP311.13 [文献标识码]A [文章编号]1673-0194(2018)08-00-02
0 引 言
企业的人事档案管理信息系统已保存了大量的员工档案信息。如何在海量的信息中快速、准确地获取、分析信息,进而提供更加个性、精准的服务是摆在企业人力资源管理部门面前的一个重要问题。其中,如何通过对系统中庞大的人事档案数据进行数据挖掘分析,尝试找出数据之间隐含的关联关系,构建员工的多维能力模型,进而据此实现职称升级推荐功能,为企业优化人力资源管理提供科学依据,丰富完善人事档案管理信息系统的智能应用是企业探寻人力资源数据挖掘的核心应用点。
1 算法的选择
在进行数据挖掘时,可以通过构建分类模型实现对数据的全面刻画以及对新数据的分类预测。数据分类一般包括两个阶段,学习阶段通过对历史数据的深度学习构建分类模型,分类阶段则利用模型对给定数据进行分类预测。决策树是用于分类和预测的主要技术之一,通过将大量数据有目的地分类,从中找到一些有价值的信息供决策者作出正确判断。
1.1 决策树算法及特点
决策树学习是以实例为基础的归纳学习算法,着眼于从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。它采用自上而下的递推方式,在决策树的内部节点进行属性值的比较,并根据不同属性判断从该节点向下的分支,然后进行剪枝,最后在决策树的叶节点得到结论。决策树的每个节点都有一定量的样本,从根节点开始往下各节点样本量逐级减少,决策树算法挖掘其实是对数据进行不断分组的一个过程。决策树的类型有两种,使用哪种类型的树取决于输出变量的类型,输出变量为分类型变量,则选用分类树;输出变量为连续型变量,则使用回归树。
1.2 常用的决策树算法
基于决策树的分类有很多实现算法,比较常用的主要有ID3算法、C4.5算法、C5.0算法、CART算法等。
1.2.1 ID3算法
ID3算法是较早提出并被普遍使用的决策树算法。在信息论中,期望信息越小,那么信息增益就越大,从而纯度就越高。ID3算法的核心思想就是以信息增益来度量属性的选择,选择分裂后信息增益最大的属性进行分裂。
1.2.2 C4.5和C5.0算法
C4.5算法是对ID3算法的一种改进和扩充,克服了ID3算法应用信息增益选择属性时偏向选择取值多的属性的不足,并且在树的构造过程中就可以进行剪枝,且能够完成对连续属性的离散化处理。C5.0是C4.5应用于大数据集上的分类算法,核心算法与C4.5保持一致,主要在执行效率和内存使用方面进行了改进。相比C4.5,C5.0在处理数据遗漏和输入字段较多的问题时更加稳健,可以提供更强大的技术来提升分类的精度。
1.2.3 CART算法
CART算法是一种二分递归分割技术,把当前样本划分为两个子样本,使生成的每个非叶子结点都有两个分支,因此CART算法生成的决策树是结构简洁的二叉树。CART算法的特点是只能生成二叉树,即每个父节点只能生成两个子节点,在确定分组变量时主要根据Gini系数来进行选择。
ID3、C4.5、C5.0、CART算法都有各自的特点和适用范围。ID3算法选择最佳分组变量使用的标准是信息增益值,存在选择属性时会偏向于选择值多的缺陷。C4.5算法虽然修正了ID3算法的不足,但其算法本身只能处理留驻在内存中的数据集,并不适用于大数据集的处理,数据量的大小会直接影响运算的效率。CART算法只能生成二叉树,属性所受局限较大。C5.0算法是用信息增益率来确定最佳分组变量和最佳分割点,相较C4.5算法拥有更强大的数据处理技术,耗用内存更小,分类精度更高,适用于处理数据量较大且不在内存中存储的数据集。
经过对以上几种方法的综合比较,本文选择用C5.0算法生成决策树来对企业员工的职业晋升进行评判分析。
2 基于C5.0算法的职业晋升评判分析
在已有系统用户信息数据库的基础上,可以借助数据挖掘技术对企业职工的人事档案信息进行深度挖掘。基于决策树的基本思想及C5.0算法,构建企业员工职业晋升评判模型,生成职业晋升评判规则集,根据企业员工的实际
原创力文档


文档评论(0)