Cost-sensitive分类算法——综述和实验.PDF

Cost-sensitive分类算法——综述和实验.PDF

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Cost-sensitive 分类算法——综述与实验 秦逸 (南京大学 计算机科学与技术系, 南京 210093) Cost-sensitive classification: survey and experiments * Qin Yi (Department of Computer Science and Technology, Nanjing University, Nanjing 210093, China) Abstract : Cost-sensitive classification is a hot spot in machine learning . Cost-sensitive classification aims to get a minimal cost classify result on a class unbalance data set. Due to its potential application oriental, machine learning community pays lots attention on this problem. This paper gives a brief introduction of cost-sensitive classification. We review the state of the art, dividing major works into two categories: rescaling and reweighted, according to their methodology. After giving the main ideas and processes of six i nfluential cost-sensitive classification algorithms, we show our experiment result of these algorithms on three data sets. We also present some analysis of our experiment results, notifying some factors that may affect algorithms’ performance. Key words: machine learning; classification; cost-sensitive; survey; category theory 摘 要: Cost-sensitive 分类是近年来机器学习的热点问题之一。Cost-sensitive 分类面向的是类型比例不平衡 的数据集上的分类问题,其主要目的是使分类器的分类结果对应的cost 值最低。由于cost-sensitive 在实际问 题中有着比较大的应用潜力,众多机器学习研究者提出了各种解决 cost-sensitive 分类问题的算法。本文简介 了cost-sensitive 分类问题的定义和研究动机。根据实现cost-sensitive 分类的具体技术手段,我们将现有方法 分为了两大类,rescaling 和reweighted 。在简述6 种具体的cost-sensitive 分类算法的主要思想和过程之后,我 们给出了不同算法在3 个实验数据集上的实验结果,并分析了可能影响算法性能的一些原因 关键词: 机器学习;分类器;cost-sensitive;综述 中图法分类号: TP301 文献标识码: A 1 简介 机器学习研究者的一个重要任务是以面向算法研究的原型系统为基础,设计并实现出可用的实际系统。 不幸的是,许多在算法层面性能十分优异的数据挖掘或机器学习原型系统并不能很好地完成这一步骤。造成 这一现象的原因在于现实可用的机器学习系统受到比原型系统更多的内外部因素的影响。在现阶段,我们对 于这些影响机器学习系统的外部因素的研究程度还处远远不及我们对于算法本身的研究程度。有一些工作已 经开始关注如何完成从算法到实际系统的转换。总的来说,这些研究者希望在考察外部因素的基础上,对机 器学习算法的结果给出额外的评价指标,从而使得算法能够被应用于实际应用的系统中去。Cost-sensitive 的 分类算法就是这样的一类方法。这类方法通过引入现实世界中实际存在的不同误判结果间代价的不平衡性,  秦逸,南京大学硕博连读研究生,研究兴趣包括软件方法学,

文档评论(0)

***** + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档