决策树膜型在冠心病全基因组联系关系研究中的应用.pdfVIP

  • 1
  • 0
  • 约5.78万字
  • 约 39页
  • 2018-06-07 发布于贵州
  • 举报

决策树膜型在冠心病全基因组联系关系研究中的应用.pdf

决策树膜型在冠心病全基因组联系关系研究中的应用

目录 中文摘要…………………………………………………………………………….3 Abstract……………….…...........…………………....………….………......…………...4 l!;I言…….………......………..………..........…….…..….....………….…....……....5 1.1 问题背景………………………………………………………………………….5 1.2 GWAS的设计与数据分析方法………………………………………………7 1.3 本论文的研究内容……………………………………………………………9 2决策树方法简介……………………………………………………………10 2.1 基本概念………………………………………………………………………。10 2.2 决策树的构建………………………………………………………………。12 2.3 决策树的剪枝………………………………………………………………….14 2.4 决策树的评估…………………………………………………………………14 2.5 常用决策树算法……………………………………………………………。15 3 实证分析………………………………………………………………………….17 3.1 初筛自变量……………………………………………………………………。17 3.2 建立决策树模型………………………………………………………………20 3.3 随机二次抽样…………………………………………………………………。25 3.4 结果比较……………………………………………………………………。26 4总结和讨论……………………………………………………………………….28 参考文献………………………………………………………………………………30 致{射…………………………………………………………………………………………….33 附录…………………………………………………………………………………………….34 万方数据 中文摘要 冠心病是一类由遗传与环境因素相互作用引起的复杂疾病,是世界范围内死 亡和致残的一个重要原因。对冠心病的全基因组关联研究是近年来的研究热点。 以往的冠心病全基因组关联研究大多采用一些经典的统计方法。然而,由于 全基因组数据量大,自变量远多于观测数,使得经典方法往往不适用。 本文分析的是来源于WTCCC的冠心病数据,包含了4864名被试者的 393474个基因位点的信息和被试者是否患病的O.1变量。其中有1926例冠心病 病例和2938名对照,冠心病病例占总观测40%左右。每个位点有三种单核甘酸 形态,为无序属性变量。采用决策树方法来分析这批数据对冠心病GWAS的两 类问题,一是寻找与冠心病相关联的易感位点,二是预测是否患病。决策树对于 这类问题的分析有不少的优点,它是一种非参数方法,所作的先验假设较少:易 于处理离散型的数据;自变量之间的相关对建模及预测的影响不大。我们查阅了 GWAS的有关文献,未找到使用决策树模型的文献。 针对wTCCC的冠心病数据,本文使用决策树模型挑选出了5个与冠心病相关 联的易感位点(自变量),使用多种评估方法得到的准确率都稳定在74%左右, 这比已有文献报导的预测准确率要高。 关键词:决策树数据挖掘冠心病全基因组关联研究 万方数据 Abstract heart a is diseasethatcausedboth Coronaryartery disease(CAHD)is by comp

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档