- 30
- 0
- 约1.11万字
- 约 5页
- 2016-02-02 发布于天津
- 举报
基于边界分布的非平衡数据集分类研究
失真,又能充分体现和代表数据集的原始分布特征。
由于位于决策边缘及其附近的样本最容易被错误地分类,对于分类器来说,这部分样本需要更加重视 [141。因此,为了实现
更高的预测准确度,在训练样本时,尽量在两类样本的决策边缘生成人工样本。HuiHan等[仅对位于决策边缘附近的样本,
计算其K阶最近邻 ,然后根据采样比率,随机选择最近邻的某几个作为人工样本。Nguyen等 1唰【 用支持向量机识别决策边缘即
小类样本的支持向量,根据其附近大类样本的数量不同,利用外插法或内插法生成小类样本支持向量的 阶最近邻,将部分或
全部 阶最近邻作为人工样本。本文在 SMOTE方法的基础上,利用支持向量机生成的支持向量作为决策边缘,同时考虑小类
样本的分布对位于决策边缘附近的样本人工合成样本,将人工样本加入原始训练集中对其进行训练 ,最后使用 F—value评价指
标来评价非平衡数据集分类算法的性能。
1 基于支持向量机和KNN的人工样本合成
1.1 支持向量机
支持向量机 (Suppo~VectorMachines,SVM)是Vapnikt’等人提出的一种二类分类模型。其基本原理如下所述,设有样本
集{(Xi,Y1)), ∈{l,2,…,Ⅳ)。其中:N为样本总数, ={
原创力文档

文档评论(0)