不平衡样本集分类算法研究.doc

下载文档

76
0
约7.82千字
约 6页
2017-04-21 发布于天津
举报
版权申诉
保障服务

不平衡样本集分类算法研究.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

不平衡样本集分类算法研究.doc

基金项目：山东省高等学校科技计划项目(J14LN24)的资助. 韩芳，女，山东临沂市莒南人，1989年生，硕士研究生，主要研究领域为机器学习,E-mail: 919211548@. 通讯作者：孙立民，男，山东青岛市莱西人，1960年生，博士，教授，计算机学会(CCF)会员（E200026888M）,主要研究领域为机器学习、模式识别，E-mail: cslmsun@126.com. 不平衡样本集分类算法研究韩芳, 孙立民 (烟台大学计算机与控制工程学院烟台 264005) 摘要：支持向量机在处理不平衡数据集时，对少类样本的分类效果很不理想。传统的处理方法尽管能够提高少类样本的分类准确率，但多类样本的分类准确率却大幅度下降。本文综合考虑样本间的相对距离和密集程度，提出了一种欠采样方法。基于UCI标准数据集的仿真实验结果表明，本文算法不仅可以提高少类样本的分类准确率，而且将多类样本的分类准确率的损失降到最低。关键词：支持向量机；分类；欠采样算法；不平衡样本中图法分类号：TP391 Classification algorithms on imbalanced dataset HAN Fang, SUN Li-min (school of computer and control engineering, yantai university, yantai 264005) Abstract: Support vector machine (SVM) is unsatisfactory in the classification performance of minority class when dealing with imbalanced dataset. The traditional processing method although can enhance the classification accuracy of less samples, but a sharp fall in the classification accuracy of more sample. In this paper, considering the intensity and the relative distance between the sample, proposed a sub-sampling method. Based on UCI standard data sets of the simulation results show that this algorithm not only can improve the classification accuracy of less class samples, but also will make the lose of the classification accuracy of more samples to a minimum. Key words: SVM; classification; under-sampling algorithm; imbalanced dataset 0 引言分类问题是机器学习领域重要的研究方向之一[1]。传统的分类算法是以提高数据集的总体分类准确率为目标，且假定样本集中各类样本的数量是平衡的。然而在实际问题中却存在着大量不平衡样本集：某一类的样本数量远远少于其他类的样本数量。例如，信用卡欺诈行为检测，网络入侵行为检测及医学疾病诊断[2]等等。对于此类问题，少类样本的分类准确率往往比多类样本的分类准确率更为重要。支持向量机是以统计学习理论和结构风险最小化原则为基础的学习机器[3]，在分类领域具有广泛的使用，其在分类平衡问题上表现出来的效果非常好，可以克服局部最小值的问题，但是，支持向量机在分类不平衡样本集时，其分类效果却并不理想。因此，针对支持向量机在处理不平衡样本集时出现的问题，很多的学者提出了不同的解决办法，主要分四个方面[4]：第一，代价敏感性训练[4]；第二，欠采样算法[4]；第三，过采样算法[4]；第四，修改核函数[5]。上述方法中，由于欠采样方法降低了数据集的大小，从而降低了时间复杂度和空间复杂度。因此，欠采样方法是处理不平衡数据集领域中常用的方法。其中最常用的是随机欠采样算法及Tomek link[4]方法，但是其算法都存在一些不足，随机欠采样由于其随机性，可能会删除很多有用的信息，缺少针对性；Tomek link由于其只是根据样本间的距离来删除样本点，不精确，可能保留很多距离少类样本点近但对分类起负作用的多类样本点。针对这些问题，本文提出了一种改进型欠采样算法，其删除样本点的标准不仅包括样本