- 52
- 0
- 约7.27千字
- 约 8页
- 2022-08-07 发布于江苏
- 举报
11决策树算法;12案例实战:使⽤sklearn构造决策树模型(含数据)
唐宇迪《python数据分析与机器学习实战》学习笔记
11决策树算法
⽂章⽬录
第⼀部分:算法
1.1算法概述
例如:将家⾥⼈分类,可以先分年龄再分性别
决策树组成:根节点,⾮叶⼦节点与分⽀,叶⼦节点。
越多的特征越多的节点,每多⼀个特征,深度越深
1.2特征选择顺序的衡量标准-熵值
信息增益率: = H(X前) - H(X后),以某特征划分数据集前后的熵的差值
选择信息增益率最⼤的为根节点
GINI系数
表⽰在样本集合中⼀个随机选中的样本被分错的概率,Gini指数越⼩表⽰集合中被选中的样本被分错的概率越⼩,也就是说集合的纯度越⾼,
反之,集合越不纯.样本被选中的概率 * 样本被分错的概率
1.3决策树减枝策略
熵值或GINI系数,C(T)表⽰当前的损失(叶⼦节点数
Cα(T)“母节点”的叶⼦节点数 熵值或GINI系数,然后所有叶⼦累加),后部分限
制叶⼦节点个数。 ⽐较等号两边,越⼩越好看是否切掉。以上图左侧倒数第⼆排的X[0]为例:不切就是【0.042546+α】,切了就是
【7
0
原创力文档

文档评论(0)