- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中国卫生统计2018年4月第35卷第2期 ·177·
基于重采样技术在医学不平衡数据分类中的应用研究
1 2 1 1 1△
闫 慈 田翔华 阿拉依 ·阿汗 张伟文 曹明芹
【提 要】 目的 以代谢综合征为例,探讨不平衡数据对分类算法的影响,并运用重采样技术对数据进行平衡化处
理,比较神经网络、决策树的分类性能。方法 采用随机过采样、随机欠采样、混合采样和人工合成数据四种重采样技术,
比较数据重采样前后及四种数据重采样间使用神经网络、决策树分类的性能,以FMeasure,Gmean和AUC作为模型评
价指标。结果 (1)分类算法性能随不平衡数据集不平衡比例的加剧而降低;(2)四种重采样技术中随机过采样后作用
于BP神经网络、C45决策树分类性能最大。结论 分类性能随数据集中患病率的降低而下降。采用随机过采样提高了
算法的分类性能。建议在应用分类算法对医学不平衡数据分类前,采用随机过采样技术以提高分类性能。
【关键词】 代谢综合征 不平衡数据集 重采样技术 神经网络 决策树
ApplicationoftheResamplingTechnologyintheClassificationofImbalanced
MedicalDatasets
YanCi,TianXianghua,AlayiAhan,etal(CollegeofPublicHealth,XinjiangMedicalUniversity(830011),Urumqi)
【Abstract】 Objective Metabolicsyndromeasthebreakthroughpoint,theinfluenceofimbalanceddatasetsonclassifica
tionisdiscussed.Theresamplingtechniqueisusedtobalancethedatasets,andtheclassificationofneuralnetworkanddecision
treearecompared.Methods (1)BPneuralnetworkandC45decisiontreeareusedtoclassifyimbalanceddatasetsofdifferent
ratios.(2)Therandomoversampling,randomundersampling,hybridsmethodsandsyntheticdataoffourkindsofresampling
technologyareusedtocomparethedatasetsofbeforeandafterresamplingandfourresamplingusingneuralnetworkanddeci
siontree,FMeasure,GmeanandAUCastheevaluationindexperformanceofthemodel.Results (1)Withtheimbalanced
proportionofdatasetsincreases,theAUCdecreasedgradually,whichindicatesthattheclassificationperformanceoftheclassifi
cationalgorithmdecreasedwithproportionoftheimbalanceddatasets.(2)Afterrandomoversamplinghadthebestperformance.
Conclusion Theperformanceofclassificationalgorithmsareimprovedbyusingrandomoversampling.Itisrecommendedthat
therandomoversamplingisusedbeforeapplyingtheclassificationalgorithminthemedicalimbalanceddatasets.
【Keywords】 Metabolicsyndrome;Imbalanceddatasets;R
您可能关注的文档
- 基于空间观测差异的地面气温资料质量控制算法研究-地球物理学报.PDF
- 基于等效光幕亮度理论的隧道入口段亮度计算方法-OpenRepository.PDF
- 基于离散元的玉米种子颗粒模型种间接触参数标定-IngentaConnect.PDF
- 基于粘弹本构的水辅注塑充填过程的仿真分析.PDF
- 基于离子迁移谱技术对冰鲜鸡肉和解冻鸡肉的鉴别-食品科学.PDF
- 基于空间谱的玉米叶片铜铅污染区分及程度监测-光谱学与光谱分析.PDF
- 基于聚苯胺纳米纤维复合膜界面构建电化学细胞传感器及其-分析化学.PDF
- 基于聚酰亚胺的电容式湿度传感元件的研制-兰州交通大学学报.PDF
- 基于能量平衡的配电网传感器故障检测方法探究-电力系统自动化.PDF
- 基于能量密度的自解耦互相关成像条件-地球物理学报.PDF
- 基于过程能力指数的施工工序质量控制研究-徐州工程学院学报.PDF
- 基于重量法的页岩气高压等温吸附研究-石油试验地质.PDF
- 基于锥形量热仪的几种防火布燃烧性能研究-火灾科学-中国科学技术.PDF
- 基于阿姆达尔定律和兰特法则计算多核架构的加速比-电子学报.PDF
- 基于降雨作用下滑面抗剪强度动态变化的层状边坡稳定-地质科技情报.PDF
- 基于非均匀曲波变换的高精度地震数据重建-地球物理学报.PDF
- 基于非弹性位移的土–结构相互作用的抗震设计方法-工程科学与技术.PDF
- 基于非等温管道流竖井地基热排水固结模拟.PDF
- 基于随机几何理论的多层异构网络的中断概率分析-上海师范大学学报.PDF
- 基于饱和指数模型的坝基帷幕体防渗效果及耐久性研究-岩土力学.PDF
文档评论(0)