- 1、本文档共41页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
咨询工具:决策树算法及应用拓展,41
算法比较 Sprint: 传统的二阶段“构造-剪枝”算法 Public(1):用保守的估计值1取代欲扩展节点的代价下界 Public(S):考虑具有分裂点的子树,同时计算为确定分裂节点及其属性的代价下界 Public(V):比前者准确,需计算确定结点上属性值的代价下界 实验数据(Real-life) DataSet Canner Car Letter Satimage shuttle vehicle yeast NO_CA 0 6 0 0 0 0 0 NO_NA 9 0 16 36 9 18 8 N_Class 2 4 26 7 5 4 10 N_R(Te) 214 567 6632 2000 14500 559 1001 N_R(Tr) 496 1161 13368 4435 43500 559 1001 实验结果(一) Dateset DS1 DS2 DS3 DS4 DS5 DS6 DS7 Sprint 21 97 3265 657 53 189 325 Public1 17 83 3215 565 53 141 237 PublicS 15 71 2979 457 53 115 169 PublicV 15 65 2875 435 53 107 163 Max rat 40% 48% 14% 51% 0% 77% 99% Nodes 9 37 1991 185 51 35 43 产生的节点数目 实验结果(二) Dateset DS1 DS2 DS3 DS4 DS5 DS6 DS7 Sprint 0.87 1.59 334.9 177.65 230.62 11.98 6.65 Public1 0.82 1.51 285.56 167.78 229.21 10.58 5.55 PublicS 0.83 1.44 289.70 166.44 230.26 9.81 4.94 PublicV 0.81 1.45 300.48 159.83 227.26 9.64 4.89 Max rat 9% 0% 17% 11% 2% 2% 3% 执行时间(S) 算法结果分析 总体上,比Sprint算法有较大改进 相对于最后的剪枝树仍有多余的结点,有待改进 挖掘效率与数据分布及噪声有关 言归正传—捕捉数据变化的挖掘方法 新生成一棵决策树 与旧树完全没有关系 生成一棵相关的树 未达到旧树中叶节点的深度 超出了旧树中相应节点的深度 相同的属性,最好的划分(best cut) 相同的属性,相同的划分 方法三的对应算法 使新树与旧树有相同的属性和划分,且能及早停止 测试在旧树中每个叶子节点的错误变化的情况 进一步生成新的树 剪枝移除那些无预测特性的分枝 比较新、旧树,识别变化部分 标识几种不同的变化类型 区域的连接:旧树中的划分不必要 边界的移动:旧树中的划分移到了新的位置 进一步细化(Refinement):旧树中的叶结点不足以描述新生成数据 类标号变化:旧树中的节点类标号发生了变化 错误率的变化 覆盖率的变化:某个节点具有的数据量的比率 小结 Building Decision Tree算法 Pruning Decision Tree算法 Public 算法 Public(1)算法 Public(s)算法 Public(v)算法 识别数据变化的挖掘算法 个人观点 计算分裂点属性代价下界的算法代码 Procedure ComputeMinCostS(Node N) If K=1 return (C(S)+1) S=1 tmpCost=2*S+1+S*log a +∑ni i=s+1..k While S+1k and 2+log a do{ tmpCost=tmpCost+2+log a – s++ } Return min {C(S)+1,tmpCost } } 决策树算法及应用拓展 内容简介: 概述 预备知识 决策树生成(Building Decision Tree) 决策树剪枝(Pruning Decision Tree) 捕捉变化数据的挖掘方法 小结 概述(一) 传统挖掘方法的局限性 只重视从数据库中提取规则,忽视了库中数据的变化 挖掘所用的数据来自稳定的环境,人为干预较少 概述(二) 捕捉新旧数据变化的目的: 挖掘出变化的趋势 例:啤酒——尿布 阻止/延缓不利变化的发生 例:金融危机——银行的信贷策略 差异挖掘算法的主要思想: 合理比较新/旧数据的挖掘结果,并清晰的描述其变化部分 预备知识一(Building Tree) 基本思想: 用途:提取分类规则,进行分类预测 判定树分类算法 output 训练集 决策树 input 使用决策树进行
您可能关注的文档
- 吉林大学《先进制造技术导论》AMT Chapter 1先进制造技术概述.ppt
- 吉林大学《先进制造技术导论》AMT Chapter 6 - Advanced Manufacturing Models.ppt
- 吉普专用灯光推广方案.ppt
- 吉买盛华泾店开业方案.ppt
- 吉林大学《先进制造技术导论》AMT Chapter 5 - Modern Production Management.ppt
- 吉林大学《微机原理与接口技术》第1章基础知识.ppt
- 吉林工业职业技术学院 .ppt
- 吉林省地方标准《居住建筑节能设计标准》.ppt
- 吉林电信10000号整体服务能力提升训练营.ppt
- 吉林大学物理学院 以引入非线性动力学与混沌理论为切入点,用当代的观点和方法进行理论力学教学内容与体系的改革.ppt
文档评论(0)