决策树算法案例实战:使用sklearn构造决策树模型(含数据).pdfVIP

  • 52
  • 0
  • 约7.27千字
  • 约 8页
  • 2022-08-07 发布于江苏
  • 举报

决策树算法案例实战:使用sklearn构造决策树模型(含数据).pdf

11决策树算法;12案例实战:使⽤sklearn构造决策树模型(含数据) 唐宇迪《python数据分析与机器学习实战》学习笔记 11决策树算法 ⽂章⽬录 第⼀部分:算法 1.1算法概述 例如:将家⾥⼈分类,可以先分年龄再分性别 决策树组成:根节点,⾮叶⼦节点与分⽀,叶⼦节点。 越多的特征越多的节点,每多⼀个特征,深度越深 1.2特征选择顺序的衡量标准-熵值 信息增益率: = H(X前) - H(X后),以某特征划分数据集前后的熵的差值 选择信息增益率最⼤的为根节点 GINI系数 表⽰在样本集合中⼀个随机选中的样本被分错的概率,Gini指数越⼩表⽰集合中被选中的样本被分错的概率越⼩,也就是说集合的纯度越⾼, 反之,集合越不纯.样本被选中的概率 * 样本被分错的概率 1.3决策树减枝策略 熵值或GINI系数,C(T)表⽰当前的损失(叶⼦节点数 Cα(T)“母节点”的叶⼦节点数 熵值或GINI系数,然后所有叶⼦累加),后部分限 制叶⼦节点个数。 ⽐较等号两边,越⼩越好看是否切掉。以上图左侧倒数第⼆排的X[0]为例:不切就是【0.042546+α】,切了就是 【7 0

文档评论(0)

1亿VIP精品文档

相关文档