基于偏置的主动不平衡学习算法研究.pdfVIP

  • 14
  • 0
  • 约11.23万字
  • 约 58页
  • 2020-09-09 发布于江苏
  • 举报

基于偏置的主动不平衡学习算法研究.pdf

重庆大学硕士学位论文 中文摘要 摘 要 传统的机器学习算法在类别分布相对平衡的数据集中通常能取得理想的分类 效果,但是在现实世界中,数据的分布通常具有不平衡性,而传统的分类算法应 用于这类数据集往往会出现偏倚现象,从而无法得到理想的分类效果,甚至在严 重情况下,其分类模型会完全失效。为解决不平衡学习问题,现有的过采样方法 大多采用合成虚拟样本的方式实现多数类与少数类的相对平衡,但其面临噪声扩 大,偏离分布和过拟合等诸多缺陷。基于此,本文另辟蹊径从主动学习的角度入 手,期望运用真实且有价值的无标记样本来实现不平衡学习,因此本文的研究内 容分为以下几个方面: 1.针对现有的过采样算法以及主动学习算法应用于不平衡数据集的局限性, 提出一种带有偏置的主动采样学习算法,该算法在采样过程中创新性地提出少数 类置信度和样本信息量两个重要指标。 2 .本文提出将少数类置信度问题形式化为一基于图的半监督学习问题,其中 论文提出稀疏邻域图取代传统的k 近邻图,解决了传统半监督学习过程中,由于k 邻域选取不当导致的欠传播或过传播问题,并由此提高了少数类采样的准确性, 从而降低人工标记成本。 3 .针对第二个子问题,样本信息量估计,本文受MWMOTE 算法启发,提出 一种针对不平衡数据集的辅助决策边界构造策略,然后基于样本到该决策边界的 最近距离估计样本信息量。该辅助决策边界克服了现有的主动学习算法以及过采 样算法对边界定义的局限性,有效地提高不平衡学习算法对样本信息量的估计准 确性。 4 .最后对本文算法进行实验验证,分析出本文算法不仅在主动采样过程中对 少数类的标记效率较高,而且采样后的训练数据集的分类性能更优,除此之外在 极度不平衡的情况下,本文算法依然能够取得较好的分类效果。 关键词:不平衡学习;主动学习;稀疏邻域;标签传播;辅助决策边界 I 重庆大学硕士学位论文 英文摘要 Abstract Traditional machine learning techniques usually can achieve a desired classification performance in a relatively balanced dataset, but in the real world, the distribution of data is usually imbalanced, and traditional classification algorithms often appear bias phenomenon in such datasets. So they can not get a better classification performance, and its classification model will completely fail in severe cases. In order to address the imbalanced problem, the existing oversampling methods mostly use the idea of synthesizing virtual instances to achieve the relative balance between majority class and minority class. But they usually face many drawbacks such as noise expansion, deviation distribution and overfitting. Based on this, this paper starts from

文档评论(0)

1亿VIP精品文档

相关文档