基于偏置的主动不平衡学习算法研究.pdfVIP

下载本文档

14
0
约11.23万字
约 58页
2020-09-09 发布于江苏
举报

基于偏置的主动不平衡学习算法研究.pdf

重庆大学硕士学位论文中文摘要摘要传统的机器学习算法在类别分布相对平衡的数据集中通常能取得理想的分类效果，但是在现实世界中，数据的分布通常具有不平衡性，而传统的分类算法应用于这类数据集往往会出现偏倚现象，从而无法得到理想的分类效果，甚至在严重情况下，其分类模型会完全失效。为解决不平衡学习问题，现有的过采样方法大多采用合成虚拟样本的方式实现多数类与少数类的相对平衡，但其面临噪声扩大，偏离分布和过拟合等诸多缺陷。基于此，本文另辟蹊径从主动学习的角度入手，期望运用真实且有价值的无标记样本来实现不平衡学习，因此本文的研究内容分为以下几个方面： 1．针对现有的过采样算法以及主动学习算法应用于不平衡数据集的局限性，提出一种带有偏置的主动采样学习算法，该算法在采样过程中创新性地提出少数类置信度和样本信息量两个重要指标。 2 ．本文提出将少数类置信度问题形式化为一基于图的半监督学习问题，其中论文提出稀疏邻域图取代传统的k 近邻图，解决了传统半监督学习过程中，由于k 邻域选取不当导致的欠传播或过传播问题，并由此提高了少数类采样的准确性，从而降低人工标记成本。 3 ．针对第二个子问题，样本信息量估计，本文受MWMOTE 算法启发，提出一种针对不平衡数据集的辅助决策边界构造策略，然后基于样本到该决策边界的最近距离估计样本信息量。该辅助决策边界克服了现有的主动学习算法以及过采样算法对边界定义的局限性，有效地提高不平衡学习算法对样本信息量的估计准确性。 4 ．最后对本文算法进行实验验证，分析出本文算法不仅在主动采样过程中对少数类的标记效率较高，而且采样后的训练数据集的分类性能更优，除此之外在极度不平衡的情况下，本文算法依然能够取得较好的分类效果。关键词：不平衡学习；主动学习；稀疏邻域；标签传播；辅助决策边界 I 重庆大学硕士学位论文英文摘要 Abstract Traditional machine learning techniques usually can achieve a desired classification performance in a relatively balanced dataset, but in the real world, the distribution of data is usually imbalanced, and traditional classification algorithms often appear bias phenomenon in such datasets. So they can not get a better classification performance, and its classification model will completely fail in severe cases. In order to address the imbalanced problem, the existing oversampling methods mostly use the idea of synthesizing virtual instances to achieve the relative balance between majority class and minority class. But they usually face many drawbacks such as noise expansion, deviation distribution and overfitting. Based on this, this paper starts from

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于偏置的主动不平衡学习算法研究.pdfVIP