- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于xgboos的心血管疾病预测模型
摘要: 建立一种基于Xgboost机器学习算法的心血管疾病预测模型,并分析各指标对于最终预测结果的影响。
心血管疾病是一种严重威胁人类,特别是50岁以上中老年人健康的常见病,具有高患病率、高致残率和高死亡率的特点,即使应用目前最先进、完善的治疗手段,仍有相当比例的心血管意外幸存者生活不能完全自理,全世界每年死于心脑血管疾病的人数居各种疾病死因的首位。随着国民生活方式的转变以及我国人口老龄化进程的加速,中国心血管病危险因素流行趋势明显,导致以心血管疾病为代表的慢性病发病人数持续增加,发病年龄不断前移现阶段临床常用的心血管风险评估工具都是基于回归模型制作的风险评估量表,例如在Framingham1 1.1 数据来源选取诊断为冠心病、心肌梗塞等心血管疾病的的病例和未诊断为心血管疾病的患者,合计1 000病例数据患者作为研究对象。其中包含507名确诊病例,493名未确诊病例。对于所有病例,选取3类共计11个指标作为数据集特征,见表1。1.2 数据探索与预处理数据探索和预处理是拿到实验数据集的第一个环节,也是影响后续实验效果最重要的一个环节。其中,数据预处理能改善数据集的完整性,降低冗余性和相关性,有效提升算法模型质量1.3 研究方法1.3.1 模型训练方法XGBoost1.3.2 指标分析方法除了获得一个具有较好性能的预测模型之外,我们还希望能了解其内部工作机制,从而为临床诊疗提供经验知识。通过算法训练出的模型往往被看作成黑盒子,严重阻碍了机器学习在某些特定领域的使用,譬如医学、金融等领域SHAP值方法是博弈论中解决多人合作博弈成本分摊或利益分配的方法,该方法通过考虑联盟成员对联盟的边际贡献将利益或成本进行合理分配SHAP值的原理可以描述为:假设第=其中本文使用Python的shap2 2.1 模型表现在测试数据集上进行验证的结果见表4。可见,该模型的整体准确率(Accuracy)为76.50%,并且在精度(Precision)、敏感度(Sensitivity)、特异度(Specificity)、准确率(Accuracy)四个指标均表现尚可,可以认为该模型的性能能够有效地通过患者常规检验指标预测其罹患心血管疾病的风险。2.2 指标分析结果完成SHAP值的计算后,随机输出其中一例患者的SHAP值,结果见图1。该患者的模型预测结果为阳性,实际结果为确诊,与预测结果一致。图1中,Base value为模型基准值,即样本整体平均值。模型输出值(Model output value)为4.13,是该患者各项指标输入模型后得到的最终结果,高于0.5则会预测为阳性。模型的输出结果和基准值之间存在差异,这个差异是各个特征参数的共同作用导致的,而每个特征的SHAP值大小就是该特征参数对这个差异的贡献大小。图中红色部分为对预测结果产生正向影响的指标,蓝色部分为产生负向影响的指标。其中影响力最大的3个指标分别为ap_hi(收缩压)=170 mmHg, cholesterol(胆固醇)=严重偏高,BMI=28.04。可以看出:该患者收缩压远高于健康范围(120 mmHg)导致心血管疾病风险大大增加;其次是胆固醇严重偏高和BMI过高,都导致心血管疾病风险激增。SHAP值的绝对值代表该特征的重要性。对各特征的SHAP值重要性数据进行汇总,输出排名前20的特征,结果见图2。其中前面3个最重要的指标分别为:收缩压、年龄和BMI。将每个样本数据点的SHAP值按照指标进行统计,可以输出SHAP值相对于指标值的变化趋势。以收缩压和年龄为例,其SHAP值的变化趋势见图3~4。分析收缩压和年龄的SHAP值趋势图,可以总结如下经验规律:①收缩压在135 mmHg以下时,心血管疾病风险降低,并且收缩压越低风险越低;超过136 mmHg时,心血管疾病风险急剧上升;②年龄在46岁以下时,心血管疾病风险降低,并且年龄越低风险越低;超过46岁开始出现心血管疾病风险,但是并不规律,可能需要综合性别等因素综合考虑。这一点与Framingham量表的年龄指标评分标准接近:年龄在44岁以下时,心血管疾病风险降低,并且年龄越低风险越低。3 以2014年为例,我国居民死因构成显示,城市和农村的心血管疾病病死率均超过40%,平均为43%,居疾病死亡构或首位可以预见,随着机器学习技术发展的深入和引用的普及,各类基于机器学习使用临床数据训练得到的疾病风险预测模型将越来越常见。机器学习模型的可解释性可以使预测模型透明化并发掘其中经验规律和临床知识
原创力文档


文档评论(0)