邓少军厦门大学数据库试验室.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大 学论 2015 数文 在战7 室 报告人:邓少军 指导老师:林子雨 2015年7月17日 目录 一种多类别条件下的代价敏感决策树算法 种基于NNA多目标优化的代价 敏感决策树构建方法 cost- sensitive分类算法一一综述与实验 Part1一种多类别条件下的代价敏感 决策树算法 ◆论文摘要 代价敏感决策树是代价敏感分类算法中一种,它的目标是在分类 过程中保证一定分类准确度条件下产生最少的分类总代价。典型的基 于贪心方法而建立的单一代价敏感决策树模型的算法有pM、 Min Cost 等,这类算法相比于其它代价敏感分类算法具有较好可理解性、需要 较少时间和空间复杂度的特点 本文研究了PM、 Min Cost以及多类别条件下属性检测代价和误分 类代价矩阵的特点,提出了多类别问题下的一种基于评分策略的代价 敏感决策树算法(简称 SECSDT MC)。 关键词:代价敏感;多类别;决策树 ◆基础理论知识介绍 误分类代价和属性检测代价 误分类代价指的是将真实类别为A的样例错误地分类为类别B 时需要付出的代价;属性检测指的是为获得样例相关属性的属 性值需要付出的代价。 代价敏感决策树算法分类 类是基于贪心方法建立单一的分类模型的代价敏感决策树, 例如PM和 Min Cost;另一类利用集成学习的方法,通过 Boosting、 Bagging等方式综合多个决策树模型构建出最终的代。 价敏感分类器模型,例如 MetaCost和 AdaBoost等 相关工作 Min cost和PM在选择分裂属性时采用的公式具体如下: MinCost: ICF= DMCA-CA PM:∥F、(2如c-1*DMC*O(2) 其中,ICF是 Information Cost Function的简称;DMcA表示在决策树模型 内部节点上的样例依据属性A分拨到各个子节点上后,当前节点上的期望 误分类代价与各个子节点的期望误分类代价的和的差值。 InfoGainA表 示属性A的信息增益;cA表示当前节点上的所有样例关于属性A的测试 代价的和;w是依据专家经验给定的关于属性A的重要性度量值。 PM算法的缺点 (1)由于代价因素与信息增益的不在同 (2)公式中关于分类准确度的计算 个数值规模上,因此在公式[2】 采用了信息增益。由于增益越高分 中容易造成IcF的计算结果主要取决于 类准确度越好,为了获得更高的信 DMGA和GA+们的商 息增益,算法倾向于选择属性值较 少的属性,但是,属性值越少的属 性带来的误分类代价不一定更少 Min Cost在选择分类属性的启发式函数中只对代价因素进行相关的计算,并未引入信息增益、 基尼系数、模糊规则、隶属函数等信息论方法来计算分类的准确度。然而,在满足一定分类 准确度条件下获得最少的分类总代价,需要综合考虑分类准确度因素和分类问题涉及到的各 种代价因素 Min Cost算法不足 ◆多类别条件下的 SECSDT MC算法 问题描述 假设数据集S中有n个样例;每个样例m个测试属性以及1个类别属性;类别属性共有t种属性值(即 样例有t种类别)。其中,测试属性标记为A1、A2、…、Am;类别属性标记为Ac;t种类别分别标记 为cla551、 Class2 误分类代价矩阵的定义如下图 C(,1)C(1,2)….C(1,t) C(2,1)C(2,2)….C(2,t) C()cu2)…C(D) c(表示样例的真实类别为cass,被分类dass时需要付出的误 分类代价。C为0,即正确分类的情况下不产生误分类代价。 代价敏感决策树的代价函数可以用公式(3)表示: F(r,i=2(P(lx)xC(i,D))+totalTestCost (3) 其中,F{x,表示利用代价敏感决策树模型将样例x分类 Classi所产生的总代价(误分类代 价和属性检测代价的和);px表示样例x的真实类别为ca的概率; totalTest Cost表示 为进行分类而检测的相关属性所付出的检测代价的和 分裂属性的选择方法 多类别条件下的基于评分策略的代价敏感决策树的总体思想是在模型的内部节点上选择 分裂属性时利用信息论方法(例如信息增益、基尼系数、隶属函数等)作为评估分类准 确度因素的启发式函数,利用误分类代价与属性检测代价作为评估代价因素的启发式函 数,然后对这两项启发式函数的计算结果进行加权求和。各个候选属性中最终的计算结 果最高的那个就作为该节点上的分裂属性 score(A )=ax( Avginfo Gain(A morum land +(1-a)x(CostEd(a d)merm

文档评论(0)

134****9146 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档