- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于特征选择的过抽样算法的研究 study of over-sampling method based on feature selection
研究与开发
基于特征选择的过抽样算法的研究枣
陆慧娟1.一,张金伟2。马小平1。杨小兵2
(1.中国矿业大学信息与电气工程学院徐州221008;2.中国计量学院信息工程学院杭州310018)
_圈为了提高不平衡数据集分类中少数类的分类精度,提出了基于特征选择的过抽样算法。该算法考
虑了不同的特征列对分类性能的不同作用,首先对训练集进行特征选择,选出一组特征列,然后
根据选出的特征列合成少数类样本。合成的每个少数类样本的特征由两部分组成,一部分是特征
选择的特征列对应的特征。另一部分是按照SMOTE原理合成的特征。将基于特征选择的过抽样
算法和SMOTE算法进行实验比较。结果表明基于特征选择的过抽样算法的性能优于SMOTE算
法.能有效降低数据的不平衡性,提高少数类的分类精度。
关键词 不平衡数据集;特征选择;过抽样;遗传算法
样的.有的特征列对分类起关键作用。
1 引言
基于上述理论.本文提出一种基于特征选择的过抽样
在医疗诊断过程中。正确地诊断病情,据此研究合适 (P3.Sampling)算法。该方法在特征选择的基础上,合成少数
的治疗方案是治疗成功的前提。然而,医疗诊断领域的数 类样本.合成的少数类样本保持对分类性能起关键作用的
据有其自身的特点——数据分布不平衡,很多领域也存在 特征.改变作用较小的特征,实验结果证明其可以有效降
类似的情况,如欺诈检测、故障诊断等。不平衡数据分类是 低数据的不平衡性,提高不平衡数据集的分类性能。
机器学习和数据挖掘领域的一个重要研究方向。由于多类
2过抽样算法和基于特征选择的过抽样
问题可以简化为两类问题,所以目前不平衡数据分类问题
算法
的研究主要是针对两类问题。两类问题即一类的数据集样
本数量远大于另一类,其中样本数大的一类叫做多数类, 2.1过抽样算法
另一类叫做少数类。 过抽样算法.就是通过增加训练集中少数类的样本来
在数据分类前。一般要对数据集进行特征选择.特征选 提高分类器对少数类的分类性能.而多数类的样本不做删
择能提高分类效率,多数情况下还能提高分类精度。Lu等 减。最简单的过抽样算法是复制少数类的样本,其主要缺
人11I提出基于遗传算法12l的特征选择算法(GA.Selection)。点是没有增加任何新的信息.容易引起过学习问题。
其经过多次特征选择,有效减少了特征,但仍保持分类精 目前.采用较多的是Chawla等人{3I于2002年提出的
度不降低。这表明不同的特征列对分类性能的作用是不一 SMOTE(syntheticminorityover-samplingtechnique)算法以
及后来对SMOTE的改进算法14I.其主要思想是将相距最近
+国家自然科学基金资助项目(NoNo
o.Yll
No.浙江省自然科学基金资助项目(N10342) 的k个样本合成少数类样本,从而降低数据不平衡程度。
i 87j
万方数据
研究与开发
但是该算法把样本所有的特征列对分类性能的作用看成 (7)判断合成的样本数是否达到凡,如果达到则结束,
一样的,其实从特征选择对分类精度的影响可以看出.不
您可能关注的文档
- 基于双pwm变换器的交流电子负载研究 research on ac electronic load for testing ac power based on dual single-phase pwm converter.pdf
- 基于双lcl补偿的无接触供电系统研究 study of contactless power transfer system based on double lcl compensation.pdf
- 基于双dsp的模糊变步长自适应谐波检测的研究 research on a fuzzy step size adaptive algorithm of harmonics detection based on dual-dsp.pdf
- 基于双pwm型pmsg的风电系统的控制策略研究 research on control strategy of d-pmsg wind power generation system based on back-to-back pwm converter.pdf
- 基于双pwm换流器的微型燃气轮机系统仿真 simulation of a microturbine system based on double pwm converters.pdf
- 基于双参数方法的水轮发电机组故障诊断规则表示和推理问题研究 rule presentation and reasoning method in hydraulic turboset fault diagnosis based on dual factors method.pdf
- 基于双闭环模糊控制的有源电力滤波器 double-closed-loop fuzzy controlled active power filter.pdf
- 基于双边供电的直流牵引馈线保护研究 research of dc feeder protection based on bilateral power supply system.pdf
- 基于双插值fft算法的间谐波分析 inter-harmonics analysis based on double interpolation fft algorithm.pdf
- 基于双层贝叶斯分类的空间负荷预测 spatial electric load forecasting based on double-level bayesian classification.pdf
- 基于特征值法的次同步阻尼守恒特性分析 analysis on subsynchronous damping conservation character based on eigenvalue method.pdf
- 基于特征依赖图的仪器仪表特征造型建模 the research on feature dependent graph in the feature modeling of instrument and meter.pdf
- 基于特征值分解和快速独立分量分析的谐波间谐波检测方法 a detection method for harmonicinter-harmonic based on eigenvalue decomposition and fast independent component analysis.pdf
- 基于特征双重加权支持向量机的放大器性能综合评价研究 an comprehensive evaluation of amplifier performance based on feature double weighted support vector machine.pdf
- 基于特征线理论的阀控液压管路瞬变过渡流数值分析 characteristic-based numerical analysis of transitional flow in servo-controlled hydraulic piplines.pdf
- 基于梯度信息的图像质量评判方法的研究 gradient information based image quality accessment.pdf
- 基于梯形波相电流驱动的六相交流感应电动机性能 performance of six-phase induction motor with trapezia phase current waveforms.pdf
- 基于梯度场的彩色图像序列光流场算法 optical flow estimation for color image sequence based on gradient field.pdf
- 基于梯度法的自适应广义形态滤波在碰摩声发射信号降噪中的应用 application of an adaptive generalized morphological filter based on the gradient method in rubbing acoustic emission signal de-noise.pdf
- 基于梯形模糊数的电力变压器故障模式重要度评定方法研究 importance evaluation method on the failure modes of power transformer based on trapezoidal fuzzy number.pdf
文档评论(0)