- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
熵是一个衡量系统混乱程度的统计量。熵越大,表示系统越混乱。分类的目的是提取系统信息,使系统向更加有序、有规则组织的方向发展。所以最佳的分裂方案是使熵减少量最大的分裂方案。熵减少量就是InformationGain(信息增益),所以,最佳分裂就是使Gain(A)最大的分裂方案。通常,这个最佳方案是用“贪心算法+深度优先搜索”得到的。**第30页,共65页,星期日,2025年,2月5日现在考虑T被分区之后的一个相似度量标准,T按照一个属性检验X的几个输出进行分区。所需信息可通过这些子集的熵的加权和求得:nInfox(T)=-Σi=1((|Ti|/|T|).info(Ti))信息增益的计算公式:Gain(X)=Info(T)-Infox(T)通过计算求出具有最高增益的属性。**第31页,共65页,星期日,2025年,2月5日以下分析有关度量标准的应用和创建决策树的一个简单例子,假设以平面文件形式给出的数据集T,其中有14个样本,通过3个输入属性描述且属于所给的两个类之一:类1或类2。**第32页,共65页,星期日,2025年,2月5日训练例子的简单平面数据库数据库T:属性1属性2属性3属性4A70真类1A90真类2A85假类2A95假类2A70假类1B90真类1B78假类1B65真类1B75假类1C80真类2C70真类2C80假类1C80假类1C96假类1**第33页,共65页,星期日,2025年,2月5日其中:9个样本属于类1,5个样本属于类2,因此分区前的熵为:info(T)=-9/14.log2(9/14)-5/14.log2(5/14)=0.940比特根据属性1把初始样本集分区成3个子集(检验x1表示从3个值A,B或C中选择其一)后,得出结果: Infox1(T)=5/14(-2/5log2(2/5)-3/5log2(3/5)) +4/14(-4/4log2(4/4)-0/4log2(0/4)) +5/14(-3/5log2(3/5)-2/5log2(2/5)) =0.694比特通过检验x1获得的信息增益是: Gain(x1)=0.940–0.694=0.246比特**第34页,共65页,星期日,2025年,2月5日如果该检验和分区是基于属性3的(检验x2表示从真或假两个值选择其一),类似地有: Infox2(T)=6/14(-3/6log2(3/6)-3/6log2(3/6)) +8/14(-6/8log2(6/8)-2/8log2(2/8)) =0.892比特通过检验x2获得的增益是: Gain(x2)=0.940–0.892=0.048比特按照增益准则,将选择x1作为分区数据库T的最初检验。为了求得最优检验还必须分析关于属性2的检验,它是连续取值的数值型属性。**第35页,共65页,星期日,2025年,2月5日3.ID3算法的改进 (1)离散化为了解决该问题,在用ID3算法挖掘具有连续性属性的知识时,应该首先把该连续性属性离散化。最简单的方法就是把属性值分成 和 两段。如身高可以分为1米以下,1米以上或者分为1.5米以下,1.5米以上。如何选择最佳的分段值呢?对任何一个属性,其所有的取值在一个数据集中是有限的。假设该属性取值为,则在这个集合中,一共存在m-1个分段值,ID3算法采用计算信息量的方法计算最佳的分段值,然后进一步构建决策树。ID3算法的扩展是C4.5算法,C4.5算法把分类范围从分类属性扩展到数字属性。**第36页,共65页,星期日,2025年,2月5日1.C4.5算法概述C4.5算法是ID3算法的扩展,它的改进部分是:能够处理连续型的属性。首先将连续型属性离散化,把连续型属性的值分成不同的区间,依据是比较各个属性Gian值的大小。缺失数据的考虑:在构建决策树时,可以简单地忽略缺失数据,即在计算增益时,仅考虑具有属性值的记录。提供两种基本的剪枝策略:子树替代法:用叶结点替代子树。子树上升法:用一棵子树中最常用的子树来代替这棵子树。5.5分类规则挖掘的C4.5算法剪枝目的是降低由于训练集存在噪声而产生的起伏。**第37页,共65页,星期日,2025年,2月5日2.离散化的方法把连续型属性值离散化的具体方法是:
1)寻找该连续型属性的最小值,并把它赋值给MIN,
文档评论(0)