回归增强与数据驱动分割.pdfVIP

回归增强与数据驱动分割.pdf

回归增强与数据驱动分割

ShayanAlahyariShivaMehdipourGhobadlou

DepartmentofComputerScienceDepartmentofStatisticalandActuarialSciences

WesternUniversityWesternUniversity

London,Ontario,CanadaLondon,Ontario,Canada

salahya@uwo.casmehdipo@uwo.ca

MikeDomaratzki

DepartmentofComputerScience

WesternUniversity

本London,Ontario,Canada

译mdomarat@uwo.ca

中

vAbstract

4不平衡回归发生在目标分布偏斜时，导致模型专注于密集区域并难以处理

1代表性不足（少数）样本。尽管它在许多应用中具有相关性，但很少有方法

0.专门针对这一挑战进行设计。现有方法通常依赖于固定的、临时的阈值来将

8样本标记为稀有或常见，忽视了联合特征-目标空间的连续复杂性，并未能

5代表真正的稀少区域。为了应对这些限制，我们提出了一种完全基于数据驱

2动的GAN增强框架，该框架使用马氏高斯混合模型（GMM）自动识别少数

v样本，并采用确定性的最近邻匹配来丰富稀疏区域。与预设阈值不同，我们

x的方法让数据决定哪些观测真正稀有。在32个基准不平衡回归数据集上的

r评估表明，我们的方法始终优于最先进的数据增强方法。

关键词：不平衡回归、数据增强、过采样、生成对抗网络、马氏距离、基于距离的、几何方法

1介绍

不平衡回归发生在连续目标的分布偏斜时，极端或罕见值被低估，从而损害模型性能

[Krawczyk,2016]。标准回归器优化全局误差度量，因此关注采样密集区域，忽视稀有值并在

极值上产生大误差[Brancoetal.,2016,Torgoetal.,2013]。然而，在许多实际应用中准确预测

这些罕见结果至关重要[Chawlaetal.,2004,Brancoetal.,2016,Torgoetal.,2013]。

相比之下，不平衡分类的研究比不平衡回归更为广泛。这种情况出现在某些类别样本数量远

少于其他类别的时候，导致模型倾向于多数类别而误判少数类别模式，从而产生整体准确率

高但稀有类别检测效果差的现象[Guoetal.,2017,JohnsonandKhoshgoftaar,2019]。欺诈检

测、医疗诊断和故障检测等领域依赖识别这些稀有类别，因此需要采用过采样、欠采样、代