回归增强与数据驱动分割.pdfVIP

  • 0
  • 0
  • 约5.6万字
  • 约 17页
  • 2026-03-09 发布于北京
  • 举报

回归增强与数据驱动分割

ShayanAlahyariShivaMehdipourGhobadlou

DepartmentofComputerScienceDepartmentofStatisticalandActuarialSciences

WesternUniversityWesternUniversity

London,Ontario,CanadaLondon,Ontario,Canada

salahya@uwo.casmehdipo@uwo.ca

MikeDomaratzki

DepartmentofComputerScience

WesternUniversity

本London,Ontario,Canada

译mdomarat@uwo.ca

1

vAbstract

5

5

4不平衡回归发生在目标分布偏斜时,导致模型专注于密集区域并难以处理

1代表性不足(少数)样本。尽管它在许多应用中具有相关性,但很少有方法

0.专门针对这一挑战进行设计。现有方法通常依赖于固定的、临时的阈值来将

8样本标记为稀有或常见,忽视了联合特征-目标空间的连续复杂性,并未能

0

5代表真正的稀少区域。为了应对这些限制,我们提出了一种完全基于数据驱

2动的GAN增强框架,该框架使用马氏高斯混合模型(GMM)自动识别少数

:

v样本,并采用确定性的最近邻匹配来丰富稀疏区域。与预设阈值不同,我们

i

x的方法让数据决定哪些观测真正稀有。在32个基准不平衡回归数据集上的

r评估表明,我们的方法始终优于最先进的数据增强方法。

a

关键词:不平衡回归、数据增强、过采样、生成对抗网络、马氏距离、基于距离的、几何方法

1介绍

不平衡回归发生在连续目标的分布偏斜时,极端或罕见值被低估,从而损害模型性能

[Krawczyk,2016]。标准回归器优化全局误差度量,因此关注采样密集区域,忽视稀有值并在

极值上产生大误差[Brancoetal.,2016,Torgoetal.,2013]。然而,在许多实际应用中准确预测

这些罕见结果至关重要[Chawlaetal.,2004,Brancoetal.,2016,Torgoetal.,2013]。

相比之下,不平衡分类的研究比不平衡回归更为广泛。这种情况出现在某些类别样本数量远

少于其他类别的时候,导致模型倾向于多数类别而误判少数类别模式,从而产生整体准确率

高但稀有类别检测效果差的现象[Guoetal.,2017,JohnsonandKhoshgoftaar,2019]。欺诈检

测、医疗诊断和故障检测等领域依赖识别这些稀有类别,因此需要采用过采样、欠采样、代

价敏感学习和集

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档