一种改进的随机森林在医疗诊断中的应用.pdf

一种改进的随机森林在医疗诊断中的应用.pdf

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

分享高质量文档

一种改进的随机森林在医疗诊断中的应用

作者:庞泰吾胡春燕尹钟

来源:《软件》2020年第07期

分享高质量文档

分享高质量文档

分享高质量文档

分享高质量文档

分享高质量文档

分享高质量文档

分享高质量文档

分享高质量文档

分享高质量文档

分享高质量文档

引言0

机器学习可谓当下最炙手可热的人工智能技术。如何将它与传统行业相结合成为了许多企

业所面临的新课题。机器学习可以看作一个通过挖掘数据中存在的潜在规律来构建学习器的过

程。学习器通常可以分为浅层网络与深层网络两种。前者是由一些传统的机器学习方法构建

的,如逻辑回归、支持向量机等。它们虽然结构简单,训练省时,且针对小样本数据也有不错

[1]

的预测精度,但却普遍存在着过拟合的问题。深层网络包括结构各异的人工神经网络

分享高质量文档

分享高质量文档

(ArtificialNeuralNetwork,ANN),如卷积神经网络、循环神经网络等。ANN相较于传统学

习器更能挖掘出数据背后的本质规律,从而达到更好的学习效果。但是ANN具有众多的超参

数。实现对这些参数的精确调控需要大量的数据作为支撑。而获得大量的标记样本往往并不是

一件容易的事。

为了解决数据样本较少和浅层网络存在的过拟合问题,集成学习是一个不错的选择。它是

[2]

一种将多个弱学习器进行整合从而得到更好预测效果的方法。其主要包括三种构造思想:

[3][4][5]

bagging、boosting和stacking。随机森林(RandomForest,RF)作为bagging方法的代

[6][7][8][9]

表,已经在软件工程、机械设计制造、模式识别、金融科技等诸多领域取得了广泛的应

用。因为医疗数据采集比较困难且涉及患者隐私,所以样本规模通常不大。这便给RF提供了

[10-11]

广泛的应用前景。但RF构建了多个学习器,所以它的运行效率显著低于单个浅层网络。

而在一些特殊的情况下,时间是最重要的评估因素。同时,RF的预测精度还有进一步提升的

空间。据此,本文提出一种基于连续属性离散化的改进方法,力求在保证模型预测精度的同

时,使模型的训练时间尽可能地缩短。更进一步的,离散化也可以为连续数据提供一个简明的

概括,从而方便研究人员的理解。

算法1研究

随机森林是多个决策树集成的产物。因为每棵树的特性各不相同,即针对测试集的表现各

有千秋。所以将它们进行结合可以显著地降低结果方差,从使模型的整体预测精度得到提升。

据此,本文首先对决策树的有关概念进行阐述。

决1.1策树

决策树是一种经典的学习器,它由根节点、叶子节点、中间节点及各节点之间的路径组

成。其中节点表示若干样本的集合,而路径表示某种分类的规则。根据节点分裂方法的不同,

现在广泛使用的决策树包括C4.5和CART(ClassificationAndRegressionTree)两种。本文中

的随机森林是使用CART构建的。该种树采取Gini系数作为节点分裂的指标。CART的生成

过程如下。

计算当前节点中样本的Gini系数可表示为。

式中S表示节点的样本集,n表示类标的种数,P表示类标为i的样本占总样本的比例。

ri

之后分别计算每种划分情况下的Gini系数,下式以一个二元属性x为例。

式中S|表示|x属性值为1的样本个数。接着选择Gini系数最小的属性作为节点划分的依

x1

据。需要说明的是,针对连续属

文档评论(0)

老狐狸 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档