面向不平衡样本的Boosting分类算法研究-计算机科学与技术专业毕业论文.docxVIP

  • 8
  • 0
  • 约5.52万字
  • 约 57页
  • 2019-05-11 发布于上海
  • 举报

面向不平衡样本的Boosting分类算法研究-计算机科学与技术专业毕业论文.docx

万方数据 万方数据 Classified Index: TP399 U.D.C: 621.3 Dissertation for the Master Degree in Engineering RESEARCH OF BOOSTING CLASSIFICAION ALGORITHM FOR IMBALANCED DATA Candidate: Lulin Wang Supervisor: Associate Prof. Chunkai Zhang Academic Degree Applied for: Master of Engineering Speciality: Computer Science Technology Affiliation: Shenzhen Graduate School Date of Defence: December, 2013 Degree-Conferring-Institution: Harbin Institute of Technology 哈尔滨工业大学工学硕士学位论文 哈尔滨工业大学工学硕士学位论文 摘 要 现实世界数据分类的应用通常会遇到数据不平衡的问题。在不平衡数据集 中,大部分样本属于“正常”类,称为负类,只有很少的一部分样本是“异常” 的或者说是引起兴趣的,称为正类。通常,在数量上占少数的正类才是分类关 注的重点,而且正类往往具有很高的错分代价。但是传统的分类算法是以整体 精确度最大化为目标的,因此,其分类结果会偏向数量众多的负类,少数类的 分类性能可能会很差。 目前,针对不平衡数据分类问题主要工作集中在数据层面的重采样技术和 算法层面的改进。重采样方法中最典型的是 SMOTE 算法。SMOTE 算法是一种 过采样方法,通过在特征空间上合成少数类样例来使数据集趋于平衡。算法层 面提出的一种方法是 Boosting 集成学习算法,它关注那些“困难”样本,由多 个弱分类器组合成一个强分类器。 但是,SMOTE 算法并没有考虑不同区域的少数类样本对少数类分类性能的 贡献的差别,Boosting 算法同等对待难以被正确分类的多数类和少数类,这在 一定程度上阻碍了少数类分类性能的提升。本文从数据层面提出了一种区域有 差别的过采样方法 DSMOTE 算,然后与 Boosting 算法相结合得到不平衡数据 分类算法 DSMOTE-Boost。该算法将少数类划分成安全样本、边界样本和孤立 点,分别采用不同的采样策略,增加对边界样本的重视,通过设定不平衡率阈 值考虑了孤立点价值;同时,提出了一种自适应调整边界样本采样倍率的方法, 避免了 盲 目过采 样 。本文 算 法在多 个 UCI 数据 集上进 行 了实验 , 结果表 明 DSMOTE-Boost 算法是有效的,获得了较好的少数类分类性能。 关键词:不平衡数据;重采样;集成学习;SMOTE;Boosting I Abstract Many real world classification applications involve learning from imbalanced data sets. In general, the imbalanced data sets are predominately composed of “normal” examples which called negative samples, while only a small percentage of “abnormal” or “interesting” examples, called positive samples. Usually, we care more about positive samples with a few examples, and positive samples tend to have high loss due to its misclassification. But traditional classification algorithms are supposed to maxmize overall accuracy of the whole data sets, therefore, the claasification result may benefit negative samples with large numbers, and the performance of positive samples might be very pool. At present, the main work for imbalanced data classification problem is fo

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档