- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Lasso回归模型变量选择功能及其在糖尿病发展预测模型中应用
Lasso回归模型变量选择功能及其在糖尿病发展预测模型中应用
摘 要:当前机器学习应用渐趋成熟,如何结合算法优势与医学研究特点是有效应用的关键。统计方法一直在预测精度与可解释性上做平衡,而医学问题多数情况下对可解释性具有较高的要求。Lasso回归模型通过将某些不相关变量的回归系数压缩到零的方法,可以有效的筛选出与研究结果相关的变量。通过缩小变量范围,增加模型的可解释性,尤其有利于医学问题的简化和医疗工作者的人工应用。本文将简要介绍Lasso回归模型的原理,并应用于糖尿病进展的多元变量筛选。在取得相近预测精度的前提下,将自变量由10个简化到4个,极大的提高了模型的简洁性与实用度。
关键词:Lasso回归;变量选择;数据挖掘;糖尿病
中图分类号:O212.1 文献标识码:A 文章编号:1671-2064(2017)24-0026-04
1 背景
作为多变量回归问题的经典方法,最小二乘法一直得到广泛的应用。?t学问题往往都是涉及很多变量的复杂问题。哪个变量与研究结果紧密相关,哪个变量对研究结果其实毫无影响,了解其中含义在研究中具有关键的指引作用。最小二乘法可以得到哪些变量具有显著性的数据,但对那些不具有显著性的变量,无法判断是否应该从模型中删除哪个变量。由于有变量的共线性等问题,直接删除某些不显著变量,再建立最小二乘法多元回归模型会有很大的风险丢失重要变量,而且预测的精度也无法得到保证。
Lasso回归模型通过将回归系数压缩到零,实现了变量的有效选择[1]。最小二乘法采用最小化RSS的方法,来求得变量回归系数。而Lasso回归在最小二乘法RSS的基础上增加了一个惩罚项,是各回归系数的绝对值之和乘以参数lambda。通过最小化RSS与惩罚项的和来求得变量回归系数。当参数lambda为0时,Lasso回归与最小二乘法没有区别。当参数lambda逐渐增加,模型开始将回归系数向0压缩,当参数lambda足够大时,所有变量的系数将都被压缩到0。随着参数lambda的变化,各变量的回归系数也会跟着改变。所以选择一个合适的参数lambda对Lasso回归模型至关重要,如何选择参数lambda又要在预测精度与可解释性上做平衡[2]。在预测精度可接受的范围内,选择一个比较大的参数lambda,将会得到一个尽可能精简的变量与模型。
医学问题经常是复杂的多变量问题,在某些问题中往往有非常多的变量,这些变量之间的关系多样,有很大可能存在共线性或其他相互影响关系。在医学实践中取得大量样本数的机会通常会比较少,如果样本量不能远远大于变量数,而且多数变量与结果没有什么关系的情况下,最小二乘法多元回归将不能得到较好的预测结果。当样本量小于变量数时,甚至无法使用最小二乘法建立模型。在大数据时代,医学问题的变量数急剧增加。例如,新的全基因组扫描等方法可以轻松产生上万个变量,而医学研究的样本很难有快速的增长,这将导致样本量小于变量数的情况。在这些情况下,Lasso回归模型可能既提高预测的精度,又通过变量筛选来简化模型。糖尿病的进展,可能会带来很多的并发症,这些并发症对患者的健康有重大影响。如果准确的预测出患者病情进展,提前采取多种措施,从诊断开始就对患者诊疗进行干预,可以取得很好的效果。
2 资料与方法
本文采用下载的糖尿病数据集,有442个样本,11个变量,其中10个自变量,(AGE年龄BMI 身体质量指数BP收缩压与舒张压的均值SEX,1为女,2为男,LTG、TC、LDL、HDL、TCH、GLU是六个血生化指标)一个因变量Y。10个自变量是糖尿病确诊时的数据,因变量Y是一年后医生对患者糖尿病严重程度的评分,分数越高病情越严重。通过对该数据集建立模型,可以根据糖尿病确诊时的数据,预测一年后患者的病情严重程度。本文使用R语言既相关的分析包glmnet,在最小二乘法回归模型十折交叉验证中使用了分析包dplyr[3]。数据集变量情况描述表1所示。
2.1 Lasso回归
(1)参数lambda取最佳预测准确时的值,Lasso模型和预测精度。
使用glmnet()函数建立lasso模型,必须用一个x矩阵和一个y向量。Diabetes是该糖尿病数据集在R中的数据框名称。
如图1所示,各个变量系数随参数lambda增大逐渐被压缩到0(L1 Norm随参数lambda减小而增大),意味着该变量被模型排除。
x - model.matrix(Y~.,diabetes)[,-1]
y - diabetes$Y
library(glmnet)
grid - 10^seq(10,-2,length=100)
set.seed(1)
train - sample(1:nrow(
您可能关注的文档
最近下载
- 水污染控制工程(第4版)全套PPT课件.pptx
- 2025年,跨境电商数据合规性风险评估与合规体系建设指南报告.docx
- (2025秋新版)部编版二年级语文上册《 语文园地二》PPT课件.pptx VIP
- 2024年社会工作者中级《社会工作实务》真题及答案解析.pdf VIP
- JGT 366-2012-外墙保温用锚栓.pdf
- 基坑坍塌事故专项应急预案桌面演练脚本.docx VIP
- 小学阶段需要掌握的文学常识.docx VIP
- 课件mike新11hd so nam模型培训教程.pdf
- 《控制工程基础》教案.docx VIP
- Q∕GDW 11021-2013 变电站调控数据交互规范.docx VIP
文档评论(0)