- 1、本文档共34页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
报告人:邓少军指导老师:林子雨2015.
论文摘要 相关工作 未来展望 论文摘要 前言介绍 Cost-sensitive 分类算法的研究现状 * 报告人:邓少军 指导老师:林子雨 2015年7月17日 论文报告 厦门大学数据库实验室 目录 一种多类别条件下的代价敏感决策树算法 Cost-sensitive 分类算法——综述与实验 一种基于 NNIA 多目标优化的代价 敏感决策树构建方法 Part 1 一种多类别条件下的代价敏感 决策树算法 代价敏感决策树是代价敏感分类算法中一种,它的目标是在分类过程中保证一定分类准确度条件下产生最少的分类总代价。典型的基于贪心方法而建立的单一代价敏感决策树模型的算法有 PM、 MinCost 等,这类算法相比于其它代价敏感分类算法具有较好可理解性、需要较少时间和空间复杂度的特点。 本文研究了 PM、MinCost 以及多类别条件下属性检测代价和误分类代价矩阵的特点,提出了多类别问题下的一种基于评分策略的代价敏感决策树算法(简称 SECSDT_MC)。 关键词:代价敏感;多类别;决策树 误分类代价和属性检测代价 代价敏感决策树算法分类 误分类代价指的是将真实类别为 A 的样例错误地分类为类别 B 时需要付出的代价; 属性检测指的是为获得样例相关属性的属 性值需要付出的代价。 一类是基于贪心方法建立单一的分类模型的代价敏感决策树, 例如 PM和 MinCost;另一类利用集成学习的方法,通过 Boosting、 Bagging 等方式综合多个决策树模型构建出最终的代价敏感分类器模型,例如 MetaCost和 AdaBoost等。 基础理论知识介绍 MinCost 和 PM在选择分裂属性时采用的公式具体如下: 其中, ICF 是 Information Cost Function 的简称; DMCA 表示在决策树模型内部节点上的样例依据属性 A 分拨到各个子节点上后,当前节点上的期望误分类代价与各个子节点的期望误分类代价的和的 差 值 。 InfoGainA 表示属性 A 的信息增益;CA 表示当前节点上的所有样例关于属性 A 的测试代价的和;w是依据专家经验给定的关于属性 A 的重要性度量值。 ( 1)由于代价因素与信息增益的不在同一个数值规模上,因此在公式(2) 中容易造成 ICF 的计算结果主要取决于 DMCA 和(CA+1)的商; ( 2)公式中关于分类准确度的计算采用了信息增益。由于增益越高分类准确度越好,为了获得更高的信息增益,算法倾向于选择属性值较少的属性,但是,属性值越少的属性带来的误分类代价不一定更少。 PM算法的缺点 MinCost算法不足 MinCost 在选择分类属性的启发式函数中只对代价因素进行相关的计算,并未引入信息增益、基尼系数、模糊规则、隶属函数等信息论方法来计算分类的准确度。 然而,在满足一定分类准确度条件下获得最少的分类总代价,需要综合考虑分类准确度因素和分类问题涉及到的各种代价因素。 多类别条件下的 SECSDT_MC 算法 问题描述 假设数据集 S 中有 n 个样例;每个样例 m 个测试属性以及 1 个类别属性;类别属性共有 t 种属性值(即 样例有 t 种类别)。其中,测试属性标记为A1、 A2、 ...、 Am;类别属性标记为 AC; t 种类别分别标记 为 Class1、 Class2、…、 Classt。 误分类代价矩阵的定义如下图 C(i, j) 表 示 样 例 的 真 实 类 别 为Classj ,被分 类 Classi 时需 要付出 的误分类 代价。 C(i, i)为 0,即正确分类的情况下不产生误分类代价。 代价敏感决策树的代价函数可以用公式(3)表示: 其中, F(x, i)表示利用代价敏感决策树模型将样例 x 分类 Classi 所产生的总代价(误分类代价和属性检测代价的和); p(j|x)表示样例 x 的真实类别为Classj 的概率;totalTestCost 表示为进行分类而检测的相关属性所付出的检测代价的和。 分裂属性的选择方法 多类别条件下的基于评分策略的代价敏感决策树的总体思想是在模型的内部节点上选择分裂属性时利用信息论方法(例如信息增益、基尼系数、隶属函数等)作为评估分类准确度因素的启发式函数,利用误分类代价与属性检测代价作为评估代价因素的启发式函数,然后对这两项启发式函数的计算结果进行加权求和。各个候选属性中最终的计算结果最高的那个就作为该节点上的分裂属性。 其中, score(Ai)表示候选属性 Ai 的评分结果;AvgInfoGain(
您可能关注的文档
- 年以后竣工工程工程款支付情况调查系统.ppt
- 年年报及年定期报表制度培训工业能源部分.ppt
- 年广州市第二次模拟考试历史试题分析.ppt
- 年广播影视人事人才统计年报业务培训.ppt
- 年度企业国有资产统计报表软件应用讲解.ppt
- 年投资者研讨会课件.ppt
- 年度制造业信息化指数数据上报流程.ppt
- 年我国大型银行与中型银行的业务和业绩比较课件.ppt
- 年月于佛山北京师范大学现代教育技术研究所.ppt
- 年汽车行业简要回顾.ppt
- 新高考生物二轮复习讲练测第6讲 遗传的分子基础(检测) (原卷版).docx
- 新高考生物二轮复习讲练测第12讲 生物与环境(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第3讲 酶和ATP(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第9讲 神经调节与体液调节(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第11讲 植物生命活动的调节(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第8讲 生物的变异、育种与进化(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第5讲 细胞的分裂、分化、衰老和死亡(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第5讲 细胞的分裂、分化、衰老和死亡(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第12讲 生物与环境(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第11讲 植物生命活动的调节(检测)(原卷版).docx
文档评论(0)