网站大量收购独家精品文档,联系QQ:2885784924

大数据经典算法c4.5讲解幻灯片.ppt

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据经典算法c4.5讲解幻灯片

决策树算法 C4.5 组长:赵庆杰 报告人:赵庆杰 成员:潘志舟 朱鹏 刘纯 汪光炼 漆学志 提纲 必备概念知识 算法背景简介 算法描述 必备概念知识 数据挖掘 分类和聚类 决策树 ID3算法 C4.5算法 数据挖掘 Data mining is the computational process of discovering patterns in large data sets involving methods at the intersection of artificial intelligence, machine learning, statistics, and database systems.The overall goal of the data mining process is to extract information from a data set and transform it into an understandable structure for further use.(Wikipedia) 数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。(百度百科) 分类和聚类 分类(Classification)就是按照某种标准给对象贴标签,再根据标签来区分归类,类别数不变。 聚类(clustering)是指根据“物以类聚”的原理,将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行描述的过程。 决策树 决策树是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。 ID3算法 C4.5算法 ID3算法介绍 样本的表示方法 向量表示 : 假设一个样本有n个变量(特征) Ⅹ= (X1,X2,…,Xn)T 2. 矩阵表示: N个样本,n个变量(特征) ID3算法介绍 3几何表示 4基元(链码)表示 条件属性和决策属性 ID3算法介绍 一个离散型属性样本实例——PlayTennis数据库片段: ID3算法介绍 关于PlayTennis的决策树: ID3算法介绍 1986年,Quinlan提出了著名的ID3算法。 用ID3算法长树的基本思想: 分类能力最好的属性被测试并创建树的根结点 测试属性每个可能的值产生一个分支 训练样本划分到适当的分支形成儿子结点 重复上面的过程,直到所有的结点都是叶子结点 两个问题:什么属性最好?什么结点才是叶子结点? 优先选择哪 些属性测试 什么时候结 束树的增长 信息增益(Information Gain) 属性A划分样本集S的信息增益Gain(S, A)为: Gain(S, A)=E(S)–E(S, A) 其中,E(S )为划分样本集S为c个类的熵; E(S, A)为属性A划分样本集S导致的期望熵。 所谓增益,就是指在应用了某一测试之后,其对应的可能性丰富程度下降,不确定性减小,这个减小的幅度就是增益,其实质上对应着分类带来的好处 熵(Entropy) 划分样本集S为c个类的熵E(S) 为: 其中,pi =ni /n,为S中的样本属于第i类Ci的概率,n为S中样本的个数。 决策属性分为YES/NO两类,S1(YES)=9,S2(NO)=5, S=S1+S2=14 E(S)=-(9/14)log2(9/14)-(5/14)log2(5/14)=0.940 期望熵(Expected Entropy) 属性A划分样本集S导致的期望熵E(S, A)为: 其中,Values(A)为属性A取值的集合;Sv为S中A取值为v的样本子集,Sv={sS A(s)=v};E(Sv)为将Sv中的样本划分为c个类的信息熵。|Sv|/|S|为Sv和S中的样本个数之比。 条件属性outlook共有sunny/overcast/rain三个取值 sunny的取值为5个,其中YES和NO的比例是2/3, I(sunny)=-(2/5)log2(2/5)-(3/5)log2(3/5)=0.976 I(overcast)=-(4/4)log2(4/4)=0.000 I(rain)=-(3/5)log2(3/5)-(2/5)log2(2/5)=0.976 E(S,outlook)=(5/14)*0.976+(4/14)*0.000+(5/14)*0.976=0.694 E(S,windy)=0.892 …. Gain(Outlook)=0.940-0.694=

文档评论(0)

liangyuehong + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档