ic回归用于高维变量选择的模拟评价.PDFVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ic回归用于高维变量选择的模拟评价

中国卫生统计2016年8月第33卷第4期 ·607· 惩罚logistic回归用于高维变量选择的模拟评价 1,2 2 1 2 2 1△  孙红卫  杨文越  王 慧 罗文海 胡乃宝 王 彤   【提 要】 目的 logistic回归是生物医学研究中常用的方法,可以进行影响因素筛选、概率预测、分类等。高通量测 序技术得到的数据给高维变量选择问题带来挑战。惩罚logistic回归可以对高维数据进行变量选择和系数估计,且其有 效的算法保证了计算的可行性。方法 本文介绍了常用的惩罚logistic算法如LASSO(leastabsolutesshrinkageandselec tionoperator)、EN(elasticnet)、SCAD(smoothlyclippedabsolutedeviation)、MCP(minimaxconcavepenalty)以及 SIS(sure independencescreening)等,并用模拟数据对各方法进行评价。结果 (1)各方法的结果与自变量间的相关程度有关,不同 惩罚logistic回归的精确性与自变量间的相关程度有关,如果相关较高,LASSO或EN的结果较好,而在相关较低时,MCP 或SCAD结果较好;(2)结合SIS的方法倾向于少选变量,误选率低,但敏感度也低,而LASSO、MCP、SCAD选择变量较 多,误选率高,但敏感度较高;(3)当自变量间低度相关时,SIS的三种方法结果非常接近,但相关较高时,SIS+LASSO的 结果表现较好。结论 采用非小细胞型肺癌的基因数据集进行实例分析,并表明如何根据模拟实验的结论,在多种方法 的不同结果间进行选择。 【关键词】 高维变量选择 惩罚logistic回归 LASSO MCP SCAD SIS   logistic回归模型已经被广泛应用在生物医学领 劣。运用一个非小细胞型肺癌的实际案例,筛选出可 域,它适用于响应变量为分类资料的情况。它通过对 能影响其五年生存率的基因位点,为下一步的研究作 概率进行logit变换,并对其与协变量的线性组合建立 参考。 模型,用来探索影响因素或者预测疾病的发生概率。 logistic回归模型的介绍 随着高通量技术的快速发展,现在的遗传学研究 已经提供了丰富的数据集,用来识别与疾病(如癌症、 设响应变量Y为二分类资料,y~B(1, ),i=1, i πi 自身免疫性疾病、心脏病和精神疾病等)有关的遗传 2,…,n,即共有n个观测,影响 的有p个自变量x, πi 1 变异[1-3]。这些数据共同的特点是变量维数远远大于 x,…,x。 2 P 样本量,所以传统统计方法难以进行模型选择和参数 πi log = + x +…+ x β β β 估计;同时存在着计算成本大、最优化难以实现等问 1-πi 0 1 1i p pi [4] n 题 。 其似然函数:

文档评论(0)

tangtianbao1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档