- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于二次随机森林的不平衡数据分类算法
基于二次随机森林的不平衡数据分类算法 摘要:不平衡数据集的分类问题是现今机器学习的一个热点问题。传统分类学习器以提高分类精度为准则导致对少数类识别准确率下降。本文首先综合描述了不平衡数据集分类问题的研究难点和研究进展,论述了对分类算法的评价指标,进而提出一种新的基于二次随机森林的不平衡数据分类算法。首先,用随机森林算法对训练样本学习找到模糊边界,将误判的多数类样本去除,改变原训练样本数据集结构,形成新的训练样本。然后再次使用随机森林对新训练样本数据进行训练。通过对UCI数据集进行实验分析表明新算法在处理不平衡数据集上在少数类的召回率和F值上有提高
关键词:模式识别;不平衡数据;随机森林;模糊边界
引言
不平衡数据集是指数据集内各类别所占比例不均,其中某个或某几个类别比例远远小于其它类别。它广泛存在于真实的应用场景中,例如利用用户提交数据检测用户诈骗的可能性,一般诈骗用户数量远远小于普通用户;利用检测数据检测病人的疾病,如癌症,患癌症的病人数量远远小于检查的病人;其他有利用卫星图片油井定位、文本自动分类、垃圾邮件过滤等。在上述应用中,人们更关心的是对于少数类别的判断,事实上少数类错判带来的损失远远大于对多数类的错判,例如对于癌症病人如果错判,延误了最佳治疗时机,会给癌症病人带来致命威胁。因此研究不平衡数据集分类问题具有重大的现实意义
传统分类方法以分类精度作为评判学习器的指标,在不平衡数据集中,学习器的预测结果肯定更加偏向比例更大的类别。weiss的实验,以分类精度为准则的学习器模型会导致识别少数类准确率下降,这样的分类学习器模型会倾向将样本预测为多数类
本文在研究不平衡数据集特点和随机森林的特性基础上,提出了针对不平衡数据的二次随机森林分类算法,通过改变样本数据结构改善分类性能
1不平衡数据的分类研究
由于多数类分类问题可以转化为二分类问题,因此本文研究是基于二分类的不平衡数据集分类问题加以研究。正类为多数类,负类为少数类
除了类间不平衡度较大易造成对少数类的识别率降低外,Japkowicz等人的实验研究表明,类间不平衡度(正负类比例)并不是导致传统分类算法性能下降的首要原因,事实上当类间重叠度低时,传统的机器算法如C4.5、BP神经网络和SVM的分类性能仍较好,而当类间重叠度较高时,传统分类算法性能下降。以二维数据为例,如图1所示,当类间重叠度较低时,正负类边界清楚,少数类的信息并没有被淹没,而当图2所示类间重叠度高意味着正负类之间的边界模糊,少数类信息淹没在多数类中。分类算法的实质是建立一套规则,将数据集空间划分为不同类的区域,由于重叠度较高势必导致分类算法的学习性能下降
由于样本比例悬殊和重叠度较高是导致不平衡数据集学习困难的主要原因,现有的研究也是集中在数据抽样技术和分类算法改进两方面
1.1基于数据采样
数据抽样技术的目的是调整少数类和多数类的比例,降低数据不平衡度,抽样技术分为两类:向下抽样,即减少多数类数量;向上抽样,即增加少数类数量。常用的方法有:
随机向下抽样:随机去掉样本中的多数类,以降低不平衡度。可能会造成多数类表达能力的缺失
随机向上抽样:随机复制样本中的少数类达到增加少数类样本数量的效果,可能会造成对于少数类的过学习
虚拟少数类向上采样(synthetic minority over-sampling technique,SMOTE):它基于如下假设,两个距离较近的少数类样本之间仍是少数类,人工构造新少数样本。SMOTE算法步骤如表1:
SMOTE算法虽然避免了抽样的随机性,但依然存在一些不足,例如新样本的有效性,如有k个近邻中有散列点可能造成新样本点的有效性差。另外可能增加边界的点,使两类的边界更加模糊。对于孤立少数样本,smote算法会产生更多噪声
以上都是基于采样技术,改变原样本数据集的分布结构,以达到降低数据集不平衡度的效果
1.2算法改进
支持向量机利用核函数将线性不可分转化为特征空间线性可。传统SVM(支持向量机)分类面会偏向少数类,Wu等人通过调整边界,修改核函数修正偏差。传统集成分类算法错分样本和正分样本的权重相同,导致对少数类分类效果差,Joshi等人针对此提出在每次迭代时赋予正分样本和错分样本不同的权重,提高对少数类的分类效果
基于分类算法的改进没有改变原样本数据集分布结构,其核心是侧重对少数类的划分,加大少数类的误判代价,使学习器对少数类敏感。但当少数类样本不能反映其真实分布时,容易出现过拟合现象
2随机森林
随机森林(Random Forest,RF)是一种基于Bagging和随机子空间技术得到集成分类学习器模型,2001年,由Breiman明确提出。它由多个分类回归树(Cl
您可能关注的文档
- 国税系统人力资源管理系统绩效评价体系浅析.doc
- 国际工程项目管理要点分析.doc
- 国际直接投资进入我国服务业的新变化探析.doc
- 国际贸易结算方式风险控制探究.doc
- 图书管理人员素质的培养与提升.doc
- 图书馆发展必须适应知识经济时代的需要.doc
- 图书馆员创新意识与能力.doc
- 图书馆员应该注重外语能力的提高.doc
- 图书馆入馆教育考试系统分析与设计.doc
- 国际视角下我国个人理财市场发展探析.doc
- 浙江衢州市卫生健康委员会衢州市直公立医院高层次紧缺人才招聘11人笔试模拟试题参考答案详解.docx
- 浙江温州泰顺县退役军人事务局招聘编外工作人员笔试备考题库及参考答案详解一套.docx
- 江苏靖江市数据局公开招聘编外工作人员笔试模拟试题及参考答案详解.docx
- 广东茂名市公安局电白分局招聘警务辅助人员40人笔试模拟试题带答案详解.docx
- 江苏盐城市大丰区住房和城乡建设局招聘劳务派遣工作人员4人笔试模拟试题带答案详解.docx
- 浙江舟山岱山县东沙镇人民政府招聘笔试模拟试题及参考答案详解1套.docx
- 最高人民检察院直属事业单位2025年度公开招聘工作人员笔试模拟试题含答案详解.docx
- 浙江金华市委宣传部、中共金华市委网信办所属事业单位选调工作人员笔试备考题库及答案详解1套.docx
- 广东深圳市党建组织员招聘40人笔试模拟试题及答案详解1套.docx
- 江苏南京水利科学研究院招聘非在编工作人员4人笔试模拟试题及参考答案详解.docx
文档评论(0)