基于双随机森林透析病患白蛋白缺失值估计.docVIP

基于双随机森林透析病患白蛋白缺失值估计.doc

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于双随机森林透析病患白蛋白缺失值估计

基于双随机森林透析病患白蛋白缺失值估计   摘 要:数据缺失是临床试验中常见但又不可避免的问题之一。由于医疗设备欠缺或者病患忽略检测白蛋白,可能造成白蛋白指标缺失。随着机器学习的广泛应用,很多研究者将机器学习应用在缺失数据估计上。提出一种基于随机森林与聚类方法结合的算法――双随机森林回归法,并将该算法应用于估计白蛋白缺失值。在准确率和鲁棒性方面,双随机森林回归法相比于最近邻法、决策树与随机森林方法,均有不同程度提高。该算法为缺失值的有效处理提供了一种新思路,可以为其它的缺失值估计研究提供参考。   关键词:血液透析;白蛋白;随机森林;缺失值;数据缺失   DOI:10.11907/rjdk.173135   中图分类号:TP319   文献标识码:A 文章编号:1672-7800(2018)005-0124-03   Abstract:Data missing is a common problem in clinical trials. The indicator of the albumin (ALB) is very important since it is associated with prognosis and mortality in patients with renal failure. And due to lack of medical equipment or patients ignorance of the detection of albumin, the value of albumin may be missed. With the widespread application of machine learning, many researchers have applied machine learning to the estimation of missing data in order to improve the quality of the dataset, and their work have got good results. In this paper, the method based on random forest and clustering and twice random forest, that is, Random forest regression-Kmeans-Random forest regression, RKR is proposed to apply this algorithm to estimate the albumin deletion value.The principle of the algorithm is to make use of the advantages of random forests in predicting nonlinear datasets. The process is divided into three parts. The first part is using the random forest regression method to impute the missing data of albumin. The second part is using the cluster method, Kmeans method, to cluster the dataset into six classes. Last but not the least, the third part is reusing the random forest regression method to impute the missing data of albumin. In terms of accuracy and robustness, the method performs better than the nearest neighbor regression method, decision regression tree and the random forest regression method. The algorithm provides a new approach for the efficient processing of missing values, which can be used as a reference for other researchers who study the estimation of missing values.   Key Wo

文档评论(0)

3471161553 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档