具有遗传性疾病和性状的遗传位点分析(B 题).pdfVIP

  • 109
  • 0
  • 约3.3万字
  • 约 40页
  • 2019-09-13 发布于江苏
  • 举报

具有遗传性疾病和性状的遗传位点分析(B 题).pdf

参赛密码 (由组委会填写) 题目: 具有遗传性疾病和性状的遗传位点分析 (B题) 摘要: 本文根据1000个样本的遗传病和性状信息,以及9445个位点上的遗传信息,利用 多种统计分析、优化软件,进行大批量的数据处理和数据挖掘,主要完成了以下几个方 面的工作: 对于问题1,传统的基于碱基的编码方式是以碱基为基本单位,对C,T,A,G 四个碱 基对应编码0(00),1(01),2(10),3(11)四个数字。由于本文所有数据最小分析单元为位 点,每个位点的观测对应两个碱基,因此我们以位点为基本单位,对等位基因TT,TC,CC 编码0(00),1(01),2(10),相比传统的的编码方式,基于位点的碱基对数值编码方式能 有效减少内存,便于数据分析。 对于问题2,首先对位点数据进行预处理,考虑到基因的遗传必须满足基本的传统 统计特征,因此,在一定的显著性水平阈值下,基于最小等位基因频率和Hardy-Weinberg 平衡定律对题目所给的全基因组进行分析,从而剔除了97个不满足条件的位点。在预 处理之后,为寻找与疾病A可能相关的位点,采用列联表分析方法,通过卡方检验和 Fishers精确检验,计算每个SNP等位基因与疾病A 的统计量,统计检验显著的位点即 为与疾病A相关联的致病位点。为进一步筛选出与疾病A关联性较强的位点,我们引入 了在信用评分、营销响应预测中常用的变量选择方法——信息值IV,通过计算每个位点 关于疾病A 的IV值,IV值越大则影响度越高。综合对比两种方法所得的致病位点,并 通过具体分析排除信息值为无穷大的特殊位点,最终,我们认为,与疾病A最有可能关 联的致病位点是rs2273298。 对于问题3,考虑基因与疾病之间的关联性,实际上是个分类预测问题,即当个体 拥有某基因时,判断其进入健康组或患病组的概率,因此,我们采用决策树的方法求解。 考虑到若直接对300个基因分别做决策树,判断基因与疾病的关联性,计算量过大,故 我们采取降维的思想。由于300个基因中位点对应唯一基因,因此我们先以位点为研究 对象,基于问题2的统计检验结果和相关挑选规则,选出满足筛选条件的10个位点, 也即10个基因。在此基础上,我们对每个基因做决策树,以混淆矩阵和ROC 曲线作为 评价标准,比较各决策树的优劣程度。最终发现gene102和gene55的准确率最高,分 别为63.8%和61.6%。因此我们认为这两个基因与疾病A 的关联性最强。 对于问题4,由于观测样本包含10个性状的不同观测的组合,其理论的性状类别有 210即1024种,即使考虑1000个样本的实际性状表现不超过1000,显然维度过高,因 此先对样本的性状表现做聚类分析,提出出有代表性的综合性状。我们考虑基于类平均 法的距离公式,对样本进行系统聚类,以R2和偏R2为参考指标,最终确认了 7,16,20,50,100等不同的聚类数。在确认聚类数后,利用k-均值聚类法,计算出基于 1 每一个聚类数所得的综合性指标,类似于问题2,再将综合指标关于位点做统计检验, 找出与综合指标有显著关联的10个位点。进而,为了考察所选位点的正确性,我们进 一步对所选的10个位点和原始1000个样本的10个性状做关联性分析,统计结果显示 所挑选的10个位点中的8个位点,都与题目所给的10个初始性状中的一个或多个性状 高度相关。因此,我们认为与10个关联性状所有表现出的综合性状相关的位点有 rrs4584380,rrrs2075972,rs1985278,rs6603797, r 关键词:位点识别 全基因组关联分析 IV值 决策树 聚类分析 2 目录 一.问题重述 4 1.1.问题背景4 1.2.问题提出4 二. 问题分析 5 三. 基本假设 6 四. 模型建立与求解 6 4.1 问题

文档评论(0)

1亿VIP精品文档

相关文档