实训8人力资源数据挖掘
项目背景实训目标实训任务技术准备实训步骤分析报告目录
项目背景在前面的章节中我们已经对本章节的数据进行了介绍和预处理以及数据可视化分析,本章节主要使用机器学习的相关知识分析各个因素之间的关系以及导致员工离职的主要原因有哪些,针对离职原因和公司的发展情况做出更好的调整。
实训目标掌握数据挖掘相关概述;掌握数据挖掘相关Scikit-learn工具包的安装和使用;掌握数据挖掘中的决策树方法理论基础;掌握数据挖掘中算法的准确性判断;掌握数据挖掘项目流程;掌握数据挖掘中的相关性分析使用和分析;掌握数据挖掘中的决策树方法使用和分析;掌握决策树方法的分析和拓展应用。
实训任务(1)数据挖掘的概念理解和认识;(2)决策树方法理论基础;(3)数据挖掘中sklearn包的简单使用;(4)决策树算法的应用和准确性判断;(5)决策树方法分析应用和拓展。
技术准备数据挖掘概述;Scikit-learn简介;决策树方法理论基础;算法的准确性判断;项目流程(Crisp-DM框架)。
技术准备什么是数据挖掘?(从大量的数据中通过算法搜索隐藏于其中信息的过程。)数据挖掘能做什么?(挖掘信息)怎么做?
技术准备
Scikit-learn工具包直接pip安装:pipinstallsklearn(anaconda中已集成)从sklean中导入包fromsklearnimport…API文档(参考):/stable/modules/classes.html
Scikit-learn工具包MachineLearninginPython开源机器学习库:/stable/index.html涵盖分类、回归、聚类、降维、模型选择、数据预处理六大模块
Scikit-learn工具包
Scikit-learn工具包
Scikit-learn工具包划分数据集调用sklearn包中的train_test_split()函数实现训练集和测试集的划分。实例:train_X,test_X,train_Y,test_Y=train_test_split(train_data,train_target,test_size,random_state,stratify=y_train)train_test_split()函数参数说明如下:train_data:被划分的样本特征集,比如X;train_target:被划分的样本标签,比如Y。
Scikit-learn工具包test_size:取值范围为0-1,表示样本比例;如果是整数即样本的数量。random_state:是随机数的种子,默认为None①若为None时,每次生成的数据都是随机,可能不一样②若为整数时,每次生成的数据都相同stratify:可以为类似数组或None①若为None时,划分出来的测试集或训练集中,其类标签的比例也是随机②若不为None时,划分出来的测试集或训练集中,其类标签的比例同输入的数组中类标签的比例相同,可以用于处理不均衡的数据集
决策树算法简介介绍:ID3算法是一个众所周之的决策树算法,该算法是澳大利亚悉尼大学的RossQuinlan于1986年提出,也是国际上最早、最有影响力的决策树算法,其他的许多算法如C4.5、CART算法等都是在ID3算法基础上的改进。
决策树算法ID3(J.RossQuinlan-1975)核心:信息熵?????(信息增益算法)C4.5—ID3的改进核心:信息增益比CART(Breiman-1984)核心:基尼指数
经典决策树算法第一部分ID3(J.RossQuinlan-1975)核心:信息熵?????(信息增益算法)
实例实例目的是通过天气、温度、湿度、风力四个因素来决定是否去打球,利用ID3算法判断这四个因素的重要性,构建出决策树模型,从而判断能够去打球。实验数据集如表1所示。
实例数据集表1实例数据集Number天气温度湿度风力Play1晴朗高高弱No2晴朗高高强No3多云高高弱Yes4雨天适中高弱Yes5雨天冷正常弱Yes6雨天冷正常强No7多云冷正常强Yes8晴朗适中高弱No9晴朗冷正常弱Yes10雨天适中正常弱Yes11晴朗适中正常强Yes12多云适中高强Yes13多云高正常弱Yes14雨天适中高强No
ID3算法在ID3算法中,决策节点属性的选择运用了信息论中的熵概念作为启发式函数。在这种属性选择方法中,选择具有最大信息增益(informationgain)的属性作为当前划分节点。通过这种方式选择的节点属性可以保证决策树具有最小的分枝数量,使得到的决策树冗余最小。
ID3算法----熵?
熵和概率图?
ID3算法----条件熵条件熵H(Y|X)表示在
您可能关注的文档
- 实训项目10:美团美食店铺数据分析实训.pptx
- 实训项目11:交通大数据分析实训.pptx
- 大数据治理(高级) 课件 西财 实训项目9:健康数据挖掘.pptx
- 大数据治理(高级) 课件 西财 实训项目7:电影数据可视化.pptx
- 大数据治理(高级) 课件 西财 实训项目6:人力资源数据可视化.pptx
- 大数据治理(高级) 课件 西财 实训项目5:泰坦尼克号数据可视化.pptx
- 大数据治理(高级) 课件 西财 实训项目3:人力资源数据预处理.pptx
- 大数据治理(高级) 课件 西财 实训项目4:鸢尾花数据预处理.pptx
- 大数据治理(高级) 课件 西财 第1篇:概论篇.pptx
- 大数据治理(高级) 课件 西财 实训项目1:期货数据预处理.pptx
- 2026年江阴职业技术学院单招《数学》经典例题含完整答案详解(全优).docx
- 2026年江门职业技术学院单招《数学》考试彩蛋押题附答案详解【名师推荐】.docx
- 2026年江门职业技术学院单招《数学》通关考试题库及参考答案详解(名师推荐).docx
- 2026年江西软件职业技术大学单招《数学》测试卷附答案详解(培优B卷).docx
- 家具合同模板甲醛(3篇).docx
- 2026年江西陶瓷工艺美术职业技术学院单招《数学》经典例题带答案详解(综合卷).docx
- 2026年江西青年职业学院单招《数学》通关考试题库(模拟题)附答案详解.docx
- 家具合同模板简易(3篇).docx
- 2026年江西财经职业学院单招《数学》考前冲刺练习题含答案详解(综合卷).docx
- 2026年江西财经职业学院单招《数学》考前冲刺练习题含答案详解(综合卷).docx
最近下载
- 2019款一汽丰田卡罗拉_汽车使用手册用户操作图解驾驶车主车辆说明书电子版.pdf
- 2026年春季人教版小学数学三年级下册教学计划(含进度表).docx VIP
- 长安三万里 中英文字幕.docx VIP
- 长安三万里中英文字幕.pptx VIP
- 早孕关爱门诊咨询要点专家共识(2025年版).pptx VIP
- 汽车行走的艺术知到智慧树期末考试答案题库2025年吉林大学.docx VIP
- (2026春新版本) 部编版道德与法治三年级下册全册教学设计.docx
- TCQFX001-2024四川省机动车维修工时定额标准.pptx VIP
- ASTM E92-2023中文版,维氏硬度试验.pdf VIP
- Roland罗兰VM-3100PRO MIDI使用说明书.pdf
原创力文档

文档评论(0)