挖掘：决策树.ppt

下载文档 降价啦

55
0
约6.93千字
约 10页
2017-08-05 发布于湖北
举报
版权申诉
保障服务

挖掘：决策树.ppt

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

LOGO Why？信息增益度量偏向于有许多输出的测试，即它倾向于选择具有大量值的属性。举个极端的例子：考虑充当唯一标识的属性PID。对PID的分裂将产生大量划分（与样本个数一样多），每个分类只包含一个样本，且每个划分都是纯的。对属性PID划分得到的信息增益最大，显然，这种划分对分类没有用处。 LOGO 使用分裂信息(split information)将信息增益规范化。该值表示数据集按属性测试的个划分产生的信息。增益率：选择具有最大信息率的属性作为分裂属性。增益率 income 其他属性的信息率可类似求出。在实际通信之前（决策树建立之前），输出变量对信宿来讲是完全随机的，其平均不确定性为：决策树建立过程中，随着信宿接收到信息（输入变量如T1），则条件熵为：信息增益： T1作为最佳分组变量而非T3 将输出变量（是否购买）看作信源发出的信息U 输入变量看作是信宿接收到的一系列信息V 类别值多的输入变量比少的有更多的机会成为当前最佳分组变量 C5.0算法:信息增益率信息增益率的数学定义为：数值型输入变量首先对它进行分组处理，分组方法采用基于MDLP的熵分组方法 2、C5.0算法：数值型输入变量把连续值属性的值域分割为离散的区间集合。基于MDLP的熵分组方法。（Minimun Description Length Principle）信息增益大于编码长度 * 选择最佳分组变量时，通常将带有缺失值的样本当临时剔除样本看待，并进行权数调整 3、C5.0算法:对缺失值问题的处理计算输出变量熵计算关于T1的条件熵计算经权数调整的T1信息增益计算信息增益率不继续确定关于分组变量的最佳分割点分类型输入变量：K叉树数值型输入变量：2叉树 Clementine：ChiMerge分箱法在分组变量上取缺失值：第1个样本被分配到各组中的权数分别为5/13、3/13、5/13，之后各组的样本数分别为5＋5/13、3＋3/13、5＋5/13 4、C5.0算法:最佳分割点后修剪方法从叶结点向上逐层剪枝，关键是错误率即误差的估计问题通常应在检验样本集上估计误差并进行剪枝利用统计中置信度的思想直接在训练样本集中估计误差：当?为0.25时， 5、C5.0算法：剪枝按照“减少－误差（reduce-error）”法判断是否剪枝 C5.0算法：剪枝考虑是否可以剪掉最下层的3个叶结点 3个结点的错误率：分别为：0.55、0.91、0.55；加权：计算父结点C的误差估计为0.50。由于0.60大于0.50，因此可以剪掉3个叶结点。预测的置信度（或误差）会影响决策，错判的损失也会影响决策损失矩阵： 6、C5.0算法：损失矩阵预测值 Yes No 实际值 Yes 0 m No n 0 从损失角度决策，在各类错判损失不相等时（不能仅从置信角度判断。事实上，默认在损失相同时才考虑置信度）： c(i|j)是将j类错判为i类的损失，p(j|t)是被节点t判为j类的归一化概率 C5.0算法：损失矩阵 C5.0仅在剪枝时考虑损失，以二分类为例： C5.0算法：损失矩阵示例：取伪损失较大，给出yes判断的置信度都很高。模型复杂，决策树修剪程度低；如果取伪损失指定为10，则模型都判为No 偏差和方差决策树算法具有一定的不稳健性，可以考虑利用多组样本建立多个模型，形成模型“委员会”制度 Bagging技术 Boosting技术 C5.0算法：模型“委员会” 建模过程（输入：训练样本集T，训练次数k；输出：多个决策树模型C1,C2,…Ck) For i=1,2,…,k do 从T中随机有放回抽取样本，形成有相同样本容量的样本集合Ti 以Ti为训练集构造模型Ci End for 决策过程（输入：新数据X，多个决策树模型C1,C2,…Ck；输出：分类预测结果C(X) ） For i=1,2,…,k do 根据Ci对X做预测，结果为Ci(X) End for 统计各类别得票，得票数最高的为C(X)，或计算平均值 C5.0算法： Bagging技术两个阶段：建立k个模型； k个模型投票 C5.0算法：Boosting技术 Boosting技术：建模过程初试化样本权数：wj(i)=1/n 对每次迭代：根据样本权数wj(i)，从T中有放回地抽取n个样本形成训练样本集Ti；根据训练集Ti得到模型Ci；计算模型的误差e(i) 如果e(i)0.5 或者e(i)=0，则终止建模过程； C5.0算法：Boosting技术 Boosting技术：建模过程初试化样本权数：wj(i)=1/n