数据挖掘决策树算法ID3和C4.5.ppt

下载文档 降价啦

7
0
约2.56千字
约 23页
2017-10-24 发布于湖北
举报
版权申诉
保障服务

数据挖掘决策树算法ID3和C4.5.ppt

1、本文档共23页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据挖掘决策树算法ID3和C4.5

决策树的建立 Decision Tree;学习数据挖掘的工具-weka;天气数据;我们希望从上面的实例中找出者若干条规则，使得能够对这些实例的类做出判断（理想情况下）（举例） if outlook=sunny and =high then play =no if humidity= normal then play=yes 第二条规则错分了一个实例样本; 决策节点： 1.最上面的节点称为根节点，是整个决策树的开始。 2.每个节点子节点的个数与决策树在用的算法有关。（二叉树、多叉树）分支：判断过程，要么是新的决策节点，要么是叶子树叶:树的结尾，每个叶子代表一个类别;步骤： 1.决策树的生成：由训练样本数据集（根据历史数据生成、有一定综合程度的用于数据分析处理的数据集）生成 2.决策树的剪枝：采用新的样本数据集（测试数据集或者训练数据修剪集）检验决策树生成过程中产生的初步规则，将影响预测准确性的分支剪除。;ID3决策树算法???述;选择属性作为根;信息值（熵）、信息增益的概念;outlook属性的树桩;temperature、humidity、wind属性的树桩;将这些属性的信息增益的值进行比较，信息增益最大的属性节点将作为决策树的根节点。所以我们选择outlook属性作为根节点，它是唯一一个获得了全纯子节点，这就为超越其他所有属性赢得了相当大的优势。而湿度属性是第二个最佳选择，因为它产生了一个几乎是全纯且较大的子节点。根节点确定了，接着继续进行这种递归过程。下面是outlook属性值为sunny时的节点进一步分支的可能性： ;因此选择湿度属性作为在这一个节点的分裂属性，在随之产生的子节点上并不需要进一步分裂，因为叶子节点都是全纯子节点，所以这个分支就结束了。继续应用这样的思想方法，将产生关于天气数据的决策树，如下图所示。理想的停止条件是所有叶子节点都是纯的，也就是当叶子节点包含的实例拥有相同的类别。然而，也许并不可能达到这种理想状态，因为当训练集里包含2个拥有相同属性值，但是属于不同类别的样本时，递归过程将不可能停止。所以停止条件应为当数据不能被进一步分裂时。;ID3算法的不足及改进;对标志码属性进行分裂而产生的树桩如下，这个属性值的类别所需的信息量是： info([0,1])+info([0,1])+info([1,0])+......+info([1,0])+info([0,1])= 0 bit;上例所有的计数值均为1，因此分裂信后的信息值是： info([1,…,1])=-1/14 x log (1/14 )x 14=logl4(3.807位) 分支越多，该值越大。具有较高分支的属性，该固有的信息值较高。增益率，由信息增益除以该固有信息值得到。例：得到标志码的增益率为 0.940 / 3.807 = 0.247 再返回之前的天气数据的树桩：属性outlook将数据集分裂成3个子集，规模分别为5,4,5，因此不考虑子集中所包含的类别，产生一个内在的信息值：info([5,4,5])=1.577 bit 得到outlook属性的增益率为：(0.940-0.693)/1.577=0.157 类似的可以计算出其他属性树桩的增益率： temperature属性的增益率为：(0.940-0.911)/info(4,6,4)=0.019 humidity属性的增益率为：(0.940-0.788)/info(7,7)=0.152 wind属性的增益率为：(0.940-0.693)/1.577=0.049 ;由此可以看出，在上述4个属性中outlook属性的结果依然排在首位，而humidity属性以一个更为接近的值排在第二位，因为它将数据集分裂成2个子集而不是3个。在这个例子中，标志码属性的增益率(0.247)任然是最高的，然而，它的优势已经大大降低了。 ID3算法最初的定义是假设属性值是离散值，但在实际环境中，有很多属性是连续的，不能够用一个确定的标准来对其进行划分。C4.5使用下面的一系列处理过程来对连续的属性划分成离散的属性，进而达到能够建立决策树的目的。 C4.5对ID3进行了一系列改进。这些改进包括处理数值属性、残缺值、后剪枝的方法。（将训练数据分为成长集和修剪集）;C4.5算法做出的改进;(3)采用了一种后剪枝方法在后修剪过程中考虑两种完全不同的操作：子树置换和子树上升;子树的上升：;为了避免树的高度无节制的增长，避免过度拟合数据，该方法使用训练样本集本身来估计剪枝前后的误差，从而决定是否真正剪枝。方法中使用的公式如下：其中N是实例的数量，f=E/N为观察到的误差率（其中E为N