大数据经典算法c4.5讲解幻灯片.ppt

下载文档 降价啦

130
0
约3.69千字
约 22页
2017-08-21 发布于浙江
举报
版权申诉
保障服务

大数据经典算法c4.5讲解幻灯片.ppt

1、本文档共22页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大数据经典算法c4.5讲解幻灯片

决策树算法 C4.5 组长：赵庆杰报告人：赵庆杰成员：潘志舟朱鹏刘纯汪光炼漆学志提纲必备概念知识算法背景简介算法描述必备概念知识数据挖掘分类和聚类决策树 ID3算法 C4.5算法数据挖掘 Data mining is the computational process of discovering patterns in large data sets involving methods at the intersection of artificial intelligence, machine learning, statistics, and database systems.The overall goal of the data mining process is to extract information from a data set and transform it into an understandable structure for further use.（Wikipedia）数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。(百度百科) 分类和聚类分类(Classification)就是按照某种标准给对象贴标签，再根据标签来区分归类，类别数不变。聚类(clustering)是指根据“物以类聚”的原理，将本身没有类别的样本聚集成不同的组，这样的一组数据对象的集合叫做簇，并且对每一个这样的簇进行描述的过程。决策树决策树是一种典型的分类方法，首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。 ID3算法 C4.5算法 ID3算法介绍样本的表示方法向量表示 : 假设一个样本有n个变量(特征) Ⅹ= (X1,X2,…,Xn)T 2. 矩阵表示: N个样本，n个变量(特征) ID3算法介绍 3几何表示 4基元（链码）表示条件属性和决策属性 ID3算法介绍一个离散型属性样本实例——PlayTennis数据库片段： ID3算法介绍关于PlayTennis的决策树： ID3算法介绍 1986年，Quinlan提出了著名的ID3算法。用ID3算法长树的基本思想：分类能力最好的属性被测试并创建树的根结点测试属性每个可能的值产生一个分支训练样本划分到适当的分支形成儿子结点重复上面的过程，直到所有的结点都是叶子结点两个问题：什么属性最好？什么结点才是叶子结点？优先选择哪些属性测试什么时候结束树的增长信息增益（Information Gain）属性A划分样本集S的信息增益Gain(S, A)为： Gain(S, A)=E(S)–E(S, A) 其中，E(S )为划分样本集S为c个类的熵； E(S, A)为属性A划分样本集S导致的期望熵。所谓增益，就是指在应用了某一测试之后，其对应的可能性丰富程度下降，不确定性减小，这个减小的幅度就是增益，其实质上对应着分类带来的好处熵（Entropy）划分样本集S为c个类的熵E(S) 为：其中，pi ＝ni /n，为S中的样本属于第i类Ci的概率，n为S中样本的个数。决策属性分为YES/NO两类，S1(YES)=9，S2(NO)=5， S=S1+S2=14 E（S）=-(9/14)log2(9/14)-(5/14)log2(5/14)=0.940 期望熵（Expected Entropy）属性A划分样本集S导致的期望熵E(S, A)为：其中，Values(A)为属性A取值的集合；Sv为S中A取值为v的样本子集，Sv={sS A(s)=v}；E(Sv)为将Sv中的样本划分为c个类的信息熵。|Sv|/|S|为Sv和S中的样本个数之比。条件属性outlook共有sunny/overcast/rain三个取值 sunny的取值为5个，其中YES和NO的比例是2/3, I（sunny）=-(2/5)log2(2/5)-(3/5)log2(3/5)=0.976 I（overcast）=-(4/4)log2(4/4)=0.000 I（rain）=-(3/5)log2(3/5)-(2/5)log2(2/5)=0.976 E(S,outlook)=(5/14)*0.976+(4/14)*0.000+(5/14)*0.976=0.694 E(S,windy)=0.892 …. Gain(Outlook)=0.940-0.694=