- 8
- 0
- 约5.52万字
- 约 57页
- 2019-05-11 发布于上海
- 举报
万方数据
万方数据
Classified Index: TP399 U.D.C: 621.3
Dissertation for the Master Degree in Engineering
RESEARCH OF BOOSTING CLASSIFICAION ALGORITHM FOR IMBALANCED DATA
Candidate: Lulin Wang
Supervisor: Associate Prof. Chunkai Zhang
Academic Degree Applied for: Master of Engineering
Speciality: Computer Science Technology
Affiliation: Shenzhen Graduate School
Date of Defence: December, 2013
Degree-Conferring-Institution: Harbin Institute of Technology
哈尔滨工业大学工学硕士学位论文
哈尔滨工业大学工学硕士学位论文
摘 要
现实世界数据分类的应用通常会遇到数据不平衡的问题。在不平衡数据集 中,大部分样本属于“正常”类,称为负类,只有很少的一部分样本是“异常” 的或者说是引起兴趣的,称为正类。通常,在数量上占少数的正类才是分类关 注的重点,而且正类往往具有很高的错分代价。但是传统的分类算法是以整体 精确度最大化为目标的,因此,其分类结果会偏向数量众多的负类,少数类的 分类性能可能会很差。
目前,针对不平衡数据分类问题主要工作集中在数据层面的重采样技术和 算法层面的改进。重采样方法中最典型的是 SMOTE 算法。SMOTE 算法是一种 过采样方法,通过在特征空间上合成少数类样例来使数据集趋于平衡。算法层 面提出的一种方法是 Boosting 集成学习算法,它关注那些“困难”样本,由多 个弱分类器组合成一个强分类器。
但是,SMOTE 算法并没有考虑不同区域的少数类样本对少数类分类性能的 贡献的差别,Boosting 算法同等对待难以被正确分类的多数类和少数类,这在 一定程度上阻碍了少数类分类性能的提升。本文从数据层面提出了一种区域有 差别的过采样方法 DSMOTE 算,然后与 Boosting 算法相结合得到不平衡数据 分类算法 DSMOTE-Boost。该算法将少数类划分成安全样本、边界样本和孤立 点,分别采用不同的采样策略,增加对边界样本的重视,通过设定不平衡率阈 值考虑了孤立点价值;同时,提出了一种自适应调整边界样本采样倍率的方法, 避免了 盲 目过采 样 。本文 算 法在多 个 UCI 数据 集上进 行 了实验 , 结果表 明 DSMOTE-Boost 算法是有效的,获得了较好的少数类分类性能。
关键词:不平衡数据;重采样;集成学习;SMOTE;Boosting
I
Abstract
Many real world classification applications involve learning from imbalanced data sets. In general, the imbalanced data sets are predominately composed of “normal” examples which called negative samples, while only a small percentage of “abnormal” or “interesting” examples, called positive samples. Usually, we care more about positive samples with a few examples, and positive samples tend to have high loss due to its misclassification. But traditional classification algorithms are supposed to maxmize overall accuracy of the whole data sets, therefore, the claasification result may benefit negative samples with large numbers, and the performance of positive samples might be very pool.
At present, the main work for imbalanced data classification problem is fo
您可能关注的文档
- 蟒河口水库坝基渗漏及库岸稳定分析-水工结构工程专业毕业论文.docx
- 面向核电设备制造的质量管理模型及系统实现-计算机科学与技术专业毕业论文.docx
- 空心电抗器检测仪光电控制系统研究-物理电子学专业毕业论文.docx
- 黄精中总皂苷和多糖的制备及其在栽培过程中土壤水分含量对其质量的影响研究-生药学专业毕业论文.docx
- 考虑柔铰非线性的柔性Sarrus恒力机构设计-机械工程专业毕业论文.docx
- 煤粉燃烧过程矿物质气化的模拟研究-热能工程专业毕业论文.docx
- 绿僵菌细胞壁合成相关基因MaFKS和MaChsⅦ的克隆及功能分析-微生物学专业毕业论文.docx
- 面向MapReduce的缓存感知调度平台的设计与实现-软件工程专业毕业论文.docx
- 面向微流体系统的平面回转玻璃微通道网络成形装置研制-机械工程专业毕业论文.docx
- 慢性外伤性骨髓炎中医火毒炽盛证规范化治疗临床研究-中医骨伤科学专业毕业论文.docx
- 全过程工程管理造价咨询工程监理项目服务方案投标方案(技术部分).doc
- 招标代理服务投标技术服务方案(技术方案).doc
- AI大模型与AIGC技术在公安领域的应用解决方案(99页 PPT).pptx
- 工业4.0智能制造数字工厂规划方案.pptx
- 树立社会主义核心价值观.docx
- 三年(2023-2025)中考历史真题分类汇编(全国)专题21 科技文化与社会生活(解析版).docx
- 2025年中考道德与法治真题完全解读(吉林卷).pdf
- 2025年中考道德与法治真题完全解读(安徽卷).pdf
- 三年(2023-2025)中考历史真题分类汇编(全国)专题14 人民解放战争(解析版).pdf
- 三年(2023-2025)广东中考历史真题分类汇编:专题03 中国近代史(八年级上册)(解析版).docx
原创力文档

文档评论(0)