基于边界分布的非平衡数据集分类研究.pdfVIP

  • 30
  • 0
  • 约1.11万字
  • 约 5页
  • 2016-02-02 发布于天津
  • 举报

基于边界分布的非平衡数据集分类研究.pdf

基于边界分布的非平衡数据集分类研究 失真,又能充分体现和代表数据集的原始分布特征。 由于位于决策边缘及其附近的样本最容易被错误地分类,对于分类器来说,这部分样本需要更加重视 [141。因此,为了实现 更高的预测准确度,在训练样本时,尽量在两类样本的决策边缘生成人工样本。HuiHan等[仅对位于决策边缘附近的样本, 计算其K阶最近邻 ,然后根据采样比率,随机选择最近邻的某几个作为人工样本。Nguyen等 1唰【 用支持向量机识别决策边缘即 小类样本的支持向量,根据其附近大类样本的数量不同,利用外插法或内插法生成小类样本支持向量的 阶最近邻,将部分或 全部 阶最近邻作为人工样本。本文在 SMOTE方法的基础上,利用支持向量机生成的支持向量作为决策边缘,同时考虑小类 样本的分布对位于决策边缘附近的样本人工合成样本,将人工样本加入原始训练集中对其进行训练 ,最后使用 F—value评价指 标来评价非平衡数据集分类算法的性能。 1 基于支持向量机和KNN的人工样本合成 1.1 支持向量机 支持向量机 (Suppo~VectorMachines,SVM)是Vapnikt’等人提出的一种二类分类模型。其基本原理如下所述,设有样本 集{(Xi,Y1)), ∈{l,2,…,Ⅳ)。其中:N为样本总数, ={

文档评论(0)

1亿VIP精品文档

相关文档