- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
分享高质量文档
一种改进的随机森林在医疗诊断中的应用
作者:庞泰吾胡春燕尹钟
来源:《软件》2020年第07期
分享高质量文档
分享高质量文档
分享高质量文档
分享高质量文档
分享高质量文档
分享高质量文档
分享高质量文档
分享高质量文档
分享高质量文档
分享高质量文档
引言0
机器学习可谓当下最炙手可热的人工智能技术。如何将它与传统行业相结合成为了许多企
业所面临的新课题。机器学习可以看作一个通过挖掘数据中存在的潜在规律来构建学习器的过
程。学习器通常可以分为浅层网络与深层网络两种。前者是由一些传统的机器学习方法构建
的,如逻辑回归、支持向量机等。它们虽然结构简单,训练省时,且针对小样本数据也有不错
[1]
的预测精度,但却普遍存在着过拟合的问题。深层网络包括结构各异的人工神经网络
分享高质量文档
分享高质量文档
(ArtificialNeuralNetwork,ANN),如卷积神经网络、循环神经网络等。ANN相较于传统学
习器更能挖掘出数据背后的本质规律,从而达到更好的学习效果。但是ANN具有众多的超参
数。实现对这些参数的精确调控需要大量的数据作为支撑。而获得大量的标记样本往往并不是
一件容易的事。
为了解决数据样本较少和浅层网络存在的过拟合问题,集成学习是一个不错的选择。它是
[2]
一种将多个弱学习器进行整合从而得到更好预测效果的方法。其主要包括三种构造思想:
[3][4][5]
bagging、boosting和stacking。随机森林(RandomForest,RF)作为bagging方法的代
[6][7][8][9]
表,已经在软件工程、机械设计制造、模式识别、金融科技等诸多领域取得了广泛的应
用。因为医疗数据采集比较困难且涉及患者隐私,所以样本规模通常不大。这便给RF提供了
[10-11]
广泛的应用前景。但RF构建了多个学习器,所以它的运行效率显著低于单个浅层网络。
而在一些特殊的情况下,时间是最重要的评估因素。同时,RF的预测精度还有进一步提升的
空间。据此,本文提出一种基于连续属性离散化的改进方法,力求在保证模型预测精度的同
时,使模型的训练时间尽可能地缩短。更进一步的,离散化也可以为连续数据提供一个简明的
概括,从而方便研究人员的理解。
算法1研究
随机森林是多个决策树集成的产物。因为每棵树的特性各不相同,即针对测试集的表现各
有千秋。所以将它们进行结合可以显著地降低结果方差,从使模型的整体预测精度得到提升。
据此,本文首先对决策树的有关概念进行阐述。
决1.1策树
决策树是一种经典的学习器,它由根节点、叶子节点、中间节点及各节点之间的路径组
成。其中节点表示若干样本的集合,而路径表示某种分类的规则。根据节点分裂方法的不同,
现在广泛使用的决策树包括C4.5和CART(ClassificationAndRegressionTree)两种。本文中
的随机森林是使用CART构建的。该种树采取Gini系数作为节点分裂的指标。CART的生成
过程如下。
计算当前节点中样本的Gini系数可表示为。
式中S表示节点的样本集,n表示类标的种数,P表示类标为i的样本占总样本的比例。
ri
之后分别计算每种划分情况下的Gini系数,下式以一个二元属性x为例。
式中S|表示|x属性值为1的样本个数。接着选择Gini系数最小的属性作为节点划分的依
x1
据。需要说明的是,针对连续属
您可能关注的文档
- 【医院合作协议书】医疗联盟协议.pdf
- 【发展战略】企业发展规划.pdf
- 【发展战略】某市企业信息化建设发展规划.pdf
- 【变频器说明书】康沃KDB说明书.pdf
- 【国际休闲会所项目建设可行性研究报告】.pdf
- 【基层常见疾病合理用药指南】急性心力衰竭基层合理用药指南2021年.pdf
- 【宗教知识竞赛宗教知识试卷(宗教知识竞赛)】.pdf
- 【实验】小麦变种的实验报告.pdf
- 【实验】扫描电镜实验报告.pdf
- 【实验】示波器原理实验报告.pdf
- 计及电动汽车移动储能动态电价的微电网优化调度研究及解决方案.pdf
- 浅谈电动汽车充电桩绝缘智能化自检装置的设计与应用 .pdf
- 浅谈电动汽车公共充电桩布局方案评价方法.pdf
- 浅谈基于弹性响应的电动汽车快充电价定价策略 汽车充电桩有序充电.pdf
- 浅谈光储充一体化社区的有序充电策略及解决方案.pdf
- 晚期肾透明细胞癌系统性治疗中国专家共识(2024版).pptx
- 中国膀胱癌保膀胱治疗多学科诊治协作共识(2022版).pptx
- 成人心血管外科手术体外循环患者血液管理指南.pptx
- 下尿路修复重建移植物应用规范中国专家共识.pptx
- 中国儿童急性非静脉曲张性上消化道出血诊治指南(2024).pptx
最近下载
- 水厂二期工程自控仪表及安防系统技术标准和要求.doc
- 四年级科学下册岩石与土壤3.7比较不同的土壤课件教科版.pptx
- 钢吊车梁SG520-1标准图集.pdf
- ppt课件云朵棉花糖.ppt
- 2024年人教精通版三年级上册英语Unit 2 Fun time & Story time.pptx VIP
- 川教版(2024)三年级上册信息科技 1.3树立正确在线观念 课件.pptx VIP
- 院科两级质量与安全教育培训计划与记录.pdf
- 2024年新湘教版七年级上册数学全册教案设计.docx
- 川教版(2024)三年级上册信息科技 第二节 了解多样在线技能 课件.pptx VIP
- 新课标背景下的教学论文:小学语文整本书阅读教学策略探究.docx VIP
文档评论(0)