剪枝和网格采样相结合的非平衡数据集分类方式.pdfVIP

  • 3
  • 0
  • 约4.66万字
  • 约 49页
  • 2018-06-07 发布于贵州
  • 举报

剪枝和网格采样相结合的非平衡数据集分类方式.pdf

剪枝和网格采样相结合的非平衡数据集分类方式

摘要 摘 要 非平衡数据集分类问题是模式识别、机器学习和数据挖掘领域中的常见问 题,也是热点问题,吸引着众多学者的眼球。非平衡数据集是指数据集类别之间 存在倾斜,某一类别样本比其它类别样本要多。传统分类器为了追求高准确率, 侧重于非平衡数据集中的多数类样本分类的准确性。而恰恰相反,非平衡数据集 中的少数类样本往往是我们所要关心的,这时分类性能不仅要考虑分类精度高 低,同时要考虑分类代价大小。传统分类器对这种非平衡数据的处理会更多关注 多数类别的样本,导致大量重要的少数类别的样本错分且真实信息受损。因此, 研究非平衡数据处理问题是非常重要。 目前,国内外学者在非平衡数据集分类问题上的研究已取得一定的成就,主 要表现在数据预处理和算法两大层面上,在算法层面上,主要是试图改进传统算 法,提高在非平衡数据集上的分类性能。而在数据预处理层面上,学者们研究大 体是对负类样本进行欠采样,去除噪声数据和远离分类面数据,对正类样本过采 样,加入噪声数据以至于达到数据平衡,再采用已有分类器进行分类,试图提高 准确率。然而,去除数据还是加入数据,不同学者处理的方法也是不同的。 本文在前人研究基础上,

文档评论(0)

1亿VIP精品文档

相关文档