大数据治理(高级) 课件 西财 实训项目8:人力资源数据挖掘.pptx

大数据治理(高级) 课件 西财 实训项目8:人力资源数据挖掘.pptx

实训8人力资源数据挖掘

项目背景实训目标实训任务技术准备实训步骤分析报告目录

项目背景在前面的章节中我们已经对本章节的数据进行了介绍和预处理以及数据可视化分析,本章节主要使用机器学习的相关知识分析各个因素之间的关系以及导致员工离职的主要原因有哪些,针对离职原因和公司的发展情况做出更好的调整。

实训目标掌握数据挖掘相关概述;掌握数据挖掘相关Scikit-learn工具包的安装和使用;掌握数据挖掘中的决策树方法理论基础;掌握数据挖掘中算法的准确性判断;掌握数据挖掘项目流程;掌握数据挖掘中的相关性分析使用和分析;掌握数据挖掘中的决策树方法使用和分析;掌握决策树方法的分析和拓展应用。

实训任务(1)数据挖掘的概念理解和认识;(2)决策树方法理论基础;(3)数据挖掘中sklearn包的简单使用;(4)决策树算法的应用和准确性判断;(5)决策树方法分析应用和拓展。

技术准备数据挖掘概述;Scikit-learn简介;决策树方法理论基础;算法的准确性判断;项目流程(Crisp-DM框架)。

技术准备什么是数据挖掘?(从大量的数据中通过算法搜索隐藏于其中信息的过程。)数据挖掘能做什么?(挖掘信息)怎么做?

技术准备

Scikit-learn工具包直接pip安装:pipinstallsklearn(anaconda中已集成)从sklean中导入包fromsklearnimport…API文档(参考):/stable/modules/classes.html

Scikit-learn工具包MachineLearninginPython开源机器学习库:/stable/index.html涵盖分类、回归、聚类、降维、模型选择、数据预处理六大模块

Scikit-learn工具包

Scikit-learn工具包

Scikit-learn工具包划分数据集调用sklearn包中的train_test_split()函数实现训练集和测试集的划分。实例:train_X,test_X,train_Y,test_Y=train_test_split(train_data,train_target,test_size,random_state,stratify=y_train)train_test_split()函数参数说明如下:train_data:被划分的样本特征集,比如X;train_target:被划分的样本标签,比如Y。

Scikit-learn工具包test_size:取值范围为0-1,表示样本比例;如果是整数即样本的数量。random_state:是随机数的种子,默认为None①若为None时,每次生成的数据都是随机,可能不一样②若为整数时,每次生成的数据都相同stratify:可以为类似数组或None①若为None时,划分出来的测试集或训练集中,其类标签的比例也是随机②若不为None时,划分出来的测试集或训练集中,其类标签的比例同输入的数组中类标签的比例相同,可以用于处理不均衡的数据集

决策树算法简介介绍:ID3算法是一个众所周之的决策树算法,该算法是澳大利亚悉尼大学的RossQuinlan于1986年提出,也是国际上最早、最有影响力的决策树算法,其他的许多算法如C4.5、CART算法等都是在ID3算法基础上的改进。

决策树算法ID3(J.RossQuinlan-1975)核心:信息熵?????(信息增益算法)C4.5—ID3的改进核心:信息增益比CART(Breiman-1984)核心:基尼指数

经典决策树算法第一部分ID3(J.RossQuinlan-1975)核心:信息熵?????(信息增益算法)

实例实例目的是通过天气、温度、湿度、风力四个因素来决定是否去打球,利用ID3算法判断这四个因素的重要性,构建出决策树模型,从而判断能够去打球。实验数据集如表1所示。

实例数据集表1实例数据集Number天气温度湿度风力Play1晴朗高高弱No2晴朗高高强No3多云高高弱Yes4雨天适中高弱Yes5雨天冷正常弱Yes6雨天冷正常强No7多云冷正常强Yes8晴朗适中高弱No9晴朗冷正常弱Yes10雨天适中正常弱Yes11晴朗适中正常强Yes12多云适中高强Yes13多云高正常弱Yes14雨天适中高强No

ID3算法在ID3算法中,决策节点属性的选择运用了信息论中的熵概念作为启发式函数。在这种属性选择方法中,选择具有最大信息增益(informationgain)的属性作为当前划分节点。通过这种方式选择的节点属性可以保证决策树具有最小的分枝数量,使得到的决策树冗余最小。

ID3算法----熵?

熵和概率图?

ID3算法----条件熵条件熵H(Y|X)表示在

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档