机器学习算法概述汇总.docx

目录键入章标题(第键入章标题(第键入章标题(第键入章标题(第键入章标题(第键入章标题(第决策树:分类树(熵) ID3:ID3算法是一种贪心算法,用来构造决策树。ID3算法以信息熵的下降速度为选取测试属性的标准,即对当前结点,计算各个特征对这个节点划分后的信息增益,选取还尚未被用来划分的而且具有信息增益最大的属性作为划分特征。从根节点一直进行这个过程,直到生成的决策树能完美分类训练样例。(gini系数,误分类率等不纯度表示)信息增益的计算方法:比如计算一个特征A对数据集D的特征,A的取值有A1,A2,A3,对应数据集D1,D2,D3。计算D1,D2,D3的信息熵, C4.5:C4.5是在ID3基础上改进的一种算法。改用信息增益比来选择属性(A对D的信息增益/D的信息熵), 过拟合,剪枝:先剪枝和后剪枝。限制深度,限制最小划分节点,限制最小叶子节点包含记录的数目。损失函数 = 不纯度 + λ节点个数分类回归树CART(Gini指数): 最小二乘回归树:递归的将输出空间划分为两个区域,并确定一个区域上的输出值。划分方式:选择当前区域上最佳切分变量和最佳切分点从而分成两个区域,分别确定两个区域输出值(一般取均值),重复此过程构建一个决策树。除了根结点,每个结点对应一个输出,也对应一个权值,预测时,从根节点到叶结点以此判断测试记录属于哪个分支,把它经过的每个节点的权重

文档评论(0)

1亿VIP精品文档

相关文档