基于边界分布的非平衡数据集分类研究.pdfVIP

下载本文档

30
0
约1.11万字
约 5页
2016-02-02 发布于天津
举报

基于边界分布的非平衡数据集分类研究.pdf

基于边界分布的非平衡数据集分类研究失真，又能充分体现和代表数据集的原始分布特征。由于位于决策边缘及其附近的样本最容易被错误地分类，对于分类器来说，这部分样本需要更加重视 [141。因此，为了实现更高的预测准确度，在训练样本时，尽量在两类样本的决策边缘生成人工样本。HuiHan等[仅对位于决策边缘附近的样本，计算其K阶最近邻，然后根据采样比率，随机选择最近邻的某几个作为人工样本。Nguyen等 1唰【用支持向量机识别决策边缘即小类样本的支持向量，根据其附近大类样本的数量不同，利用外插法或内插法生成小类样本支持向量的阶最近邻，将部分或全部阶最近邻作为人工样本。本文在 SMOTE方法的基础上，利用支持向量机生成的支持向量作为决策边缘，同时考虑小类样本的分布对位于决策边缘附近的样本人工合成样本，将人工样本加入原始训练集中对其进行训练，最后使用 F—value评价指标来评价非平衡数据集分类算法的性能。 1 基于支持向量机和KNN的人工样本合成 1．1 支持向量机支持向量机 (Suppo~VectorMachines，SVM)是Vapnikt’等人提出的一种二类分类模型。其基本原理如下所述，设有样本集{(Xi,Y1))， ∈{l，2，…，Ⅳ)。其中：N为样本总数， ={

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于边界分布的非平衡数据集分类研究.pdfVIP