决策树膜型在冠心病全基因组关联的研究中的应用.pdfVIP

决策树膜型在冠心病全基因组关联的研究中的应用.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
目录 中文摘要…………………………………………………………………………….3 Abstract……………….…...........…………………....………….………......…………...4 l!;I言…….………......………..………..........…….…..….....………….…....……....5 1.1 问题背景………………………………………………………………………….5 1.2 GWAS的设计与数据分析方法………………………………………………7 1.3 本论文的研究内容……………………………………………………………9 2决策树方法简介……………………………………………………………10 2.1 基本概念………………………………………………………………………。10 2.2 决策树的构建………………………………………………………………。12 2.3 决策树的剪枝………………………………………………………………….14 2.4 决策树的评估…………………………………………………………………14 2.5 常用决策树算法……………………………………………………………。15 3 实证分析………………………………………………………………………….17 3.1 初筛自变量……………………………………………………………………。17 3.2 建立决策树模型………………………………………………………………20 3.3 随机二次抽样…………………………………………………………………。25 3.4 结果比较……………………………………………………………………。26 4总结和讨论……………………………………………………………………….28 参考文献………………………………………………………………………………30 致{射…………………………………………………………………………………………….33 附录…………………………………………………………………………………………….34 万方数据 中文摘要 冠心病是一类由遗传与环境因素相互作用引起的复杂疾病,是世界范围内死 亡和致残的一个重要原因。对冠心病的全基因组关联研究是近年来的研究热点。 以往的冠心病全基因组关联研究大多采用一些经典的统计方法。然而,由于 全基因组数据量大,自变量远多于观测数,使得经典方法往往不适用。 本文分析的是来源于WTCCC的冠心病数据,包含了4864名被试者的 393474个基因位点的信息和被试者是否患病的O.1变量。其中有1926例冠心病 病例和2938名对照,冠心病病例占总观测40%左右。每个位点有三种单核甘酸 形态,为无序属性变量。采用决策树方法来分析这批数据对冠心病GWAS的两 类问题,一是寻找与冠心病相关联的易感位点,二是预测是否患病。决策树对于 这类问题的分析有不少的优点,它是一种非参数方法,所作的先验假设较少:易 于处理离散型的数据;自变量之间的相关对建模及预测的影响不大。我们查阅了 GWAS的有关文献,未找到使用决策树模型的文献。 针对wTCCC的冠心病数据,本文使用决策树模型挑选出了5个与冠心病相关 联的易感位点(自变量),使用多种评估方法得到的准确率都稳定在74%左右, 这比已有文献报导的预测准确率要高。 关键词:决策树数据挖掘冠心病全基因组关联研究 万方数据 Abstract heart a is diseasethatcausedboth Coronaryartery disease(CAHD)is by comp

文档评论(0)

liybai + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档