基于二次随机森林的不平衡数据分类算法.docVIP

下载本文档

51
0
约3.24千字
约 7页
2017-06-28 发布于福建
举报
版权申诉

基于二次随机森林的不平衡数据分类算法.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于二次随机森林的不平衡数据分类算法

基于二次随机森林的不平衡数据分类算法　　摘要：不平衡数据集的分类问题是现今机器学习的一个热点问题。传统分类学习器以提高分类精度为准则导致对少数类识别准确率下降。本文首先综合描述了不平衡数据集分类问题的研究难点和研究进展，论述了对分类算法的评价指标，进而提出一种新的基于二次随机森林的不平衡数据分类算法。首先，用随机森林算法对训练样本学习找到模糊边界，将误判的多数类样本去除，改变原训练样本数据集结构，形成新的训练样本。然后再次使用随机森林对新训练样本数据进行训练。通过对UCI数据集进行实验分析表明新算法在处理不平衡数据集上在少数类的召回率和F值上有提高关键词：模式识别；不平衡数据；随机森林；模糊边界引言不平衡数据集是指数据集内各类别所占比例不均，其中某个或某几个类别比例远远小于其它类别。它广泛存在于真实的应用场景中，例如利用用户提交数据检测用户诈骗的可能性，一般诈骗用户数量远远小于普通用户；利用检测数据检测病人的疾病，如癌症，患癌症的病人数量远远小于检查的病人；其他有利用卫星图片油井定位、文本自动分类、垃圾邮件过滤等。在上述应用中，人们更关心的是对于少数类别的判断，事实上少数类错判带来的损失远远大于对多数类的错判，例如对于癌症病人如果错判，延误了最佳治疗时机，会给癌症病人带来致命威胁。因此研究不平衡数据集分类问题具有重大的现实意义传统分类方法以分类精度作为评判学习器的指标，在不平衡数据集中，学习器的预测结果肯定更加偏向比例更大的类别。weiss的实验，以分类精度为准则的学习器模型会导致识别少数类准确率下降，这样的分类学习器模型会倾向将样本预测为多数类本文在研究不平衡数据集特点和随机森林的特性基础上，提出了针对不平衡数据的二次随机森林分类算法，通过改变样本数据结构改善分类性能 1不平衡数据的分类研究由于多数类分类问题可以转化为二分类问题，因此本文研究是基于二分类的不平衡数据集分类问题加以研究。正类为多数类，负类为少数类除了类间不平衡度较大易造成对少数类的识别率降低外，Japkowicz等人的实验研究表明，类间不平衡度（正负类比例）并不是导致传统分类算法性能下降的首要原因，事实上当类间重叠度低时，传统的机器算法如C4.5、BP神经网络和SVM的分类性能仍较好，而当类间重叠度较高时，传统分类算法性能下降。以二维数据为例，如图1所示，当类间重叠度较低时，正负类边界清楚，少数类的信息并没有被淹没，而当图2所示类间重叠度高意味着正负类之间的边界模糊，少数类信息淹没在多数类中。分类算法的实质是建立一套规则，将数据集空间划分为不同类的区域，由于重叠度较高势必导致分类算法的学习性能下降由于样本比例悬殊和重叠度较高是导致不平衡数据集学习困难的主要原因，现有的研究也是集中在数据抽样技术和分类算法改进两方面 1.1基于数据采样数据抽样技术的目的是调整少数类和多数类的比例，降低数据不平衡度，抽样技术分为两类：向下抽样，即减少多数类数量；向上抽样，即增加少数类数量。常用的方法有：随机向下抽样：随机去掉样本中的多数类，以降低不平衡度。可能会造成多数类表达能力的缺失随机向上抽样：随机复制样本中的少数类达到增加少数类样本数量的效果，可能会造成对于少数类的过学习虚拟少数类向上采样（synthetic minority over-sampling technique，SMOTE）：它基于如下假设，两个距离较近的少数类样本之间仍是少数类，人工构造新少数样本。SMOTE算法步骤如表1： SMOTE算法虽然避免了抽样的随机性，但依然存在一些不足，例如新样本的有效性，如有k个近邻中有散列点可能造成新样本点的有效性差。另外可能增加边界的点，使两类的边界更加模糊。对于孤立少数样本，smote算法会产生更多噪声以上都是基于采样技术，改变原样本数据集的分布结构，以达到降低数据集不平衡度的效果 1.2算法改进支持向量机利用核函数将线性不可分转化为特征空间线性可。传统SVM（支持向量机）分类面会偏向少数类，Wu等人通过调整边界，修改核函数修正偏差。传统集成分类算法错分样本和正分样本的权重相同，导致对少数类分类效果差，Joshi等人针对此提出在每次迭代时赋予正分样本和错分样本不同的权重，提高对少数类的分类效果基于分类算法的改进没有改变原样本数据集分布结构，其核心是侧重对少数类的划分，加大少数类的误判代价，使学习器对少数类敏感。但当少数类样本不能反映其真实分布时，容易出现过拟合现象 2随机森林随机森林（Random Forest，RF）是一种基于Bagging和随机子空间技术得到集成分类学习器模型，2001年，由Breiman明确提出。它由多个分类回归树（Cl