具有遗传性疾病和性状的遗传位点分析（B 题）.pdfVIP

下载本文档

109
0
约3.3万字
约 40页
2019-09-13 发布于江苏
举报

具有遗传性疾病和性状的遗传位点分析（B 题）.pdf

参赛密码（由组委会填写）题目：具有遗传性疾病和性状的遗传位点分析（B题）摘要：本文根据1000个样本的遗传病和性状信息，以及9445个位点上的遗传信息，利用多种统计分析、优化软件，进行大批量的数据处理和数据挖掘，主要完成了以下几个方面的工作：对于问题1，传统的基于碱基的编码方式是以碱基为基本单位，对C,T,A,G 四个碱基对应编码0(00),1(01),2(10),3(11)四个数字。由于本文所有数据最小分析单元为位点，每个位点的观测对应两个碱基，因此我们以位点为基本单位，对等位基因TT,TC,CC 编码0(00),1(01),2(10)，相比传统的的编码方式，基于位点的碱基对数值编码方式能有效减少内存，便于数据分析。对于问题2，首先对位点数据进行预处理，考虑到基因的遗传必须满足基本的传统统计特征，因此，在一定的显著性水平阈值下，基于最小等位基因频率和Hardy-Weinberg 平衡定律对题目所给的全基因组进行分析，从而剔除了97个不满足条件的位点。在预处理之后，为寻找与疾病A可能相关的位点，采用列联表分析方法，通过卡方检验和 Fishers精确检验，计算每个SNP等位基因与疾病A 的统计量，统计检验显著的位点即为与疾病A相关联的致病位点。为进一步筛选出与疾病A关联性较强的位点，我们引入了在信用评分、营销响应预测中常用的变量选择方法——信息值IV，通过计算每个位点关于疾病A 的IV值，IV值越大则影响度越高。综合对比两种方法所得的致病位点，并通过具体分析排除信息值为无穷大的特殊位点，最终，我们认为，与疾病A最有可能关联的致病位点是rs2273298。对于问题3，考虑基因与疾病之间的关联性，实际上是个分类预测问题，即当个体拥有某基因时，判断其进入健康组或患病组的概率，因此，我们采用决策树的方法求解。考虑到若直接对300个基因分别做决策树，判断基因与疾病的关联性，计算量过大，故我们采取降维的思想。由于300个基因中位点对应唯一基因，因此我们先以位点为研究对象，基于问题2的统计检验结果和相关挑选规则，选出满足筛选条件的10个位点，也即10个基因。在此基础上，我们对每个基因做决策树，以混淆矩阵和ROC 曲线作为评价标准，比较各决策树的优劣程度。最终发现gene102和gene55的准确率最高，分别为63.8%和61.6%。因此我们认为这两个基因与疾病A 的关联性最强。对于问题4，由于观测样本包含10个性状的不同观测的组合，其理论的性状类别有 210即1024种，即使考虑1000个样本的实际性状表现不超过1000，显然维度过高，因此先对样本的性状表现做聚类分析，提出出有代表性的综合性状。我们考虑基于类平均法的距离公式，对样本进行系统聚类，以R2和偏R2为参考指标，最终确认了 7,16,20,50,100等不同的聚类数。在确认聚类数后，利用k-均值聚类法，计算出基于 1 每一个聚类数所得的综合性指标，类似于问题2，再将综合指标关于位点做统计检验，找出与综合指标有显著关联的10个位点。进而，为了考察所选位点的正确性，我们进一步对所选的10个位点和原始1000个样本的10个性状做关联性分析，统计结果显示所挑选的10个位点中的8个位点，都与题目所给的10个初始性状中的一个或多个性状高度相关。因此，我们认为与10个关联性状所有表现出的综合性状相关的位点有 rrs4584380，rrrs2075972，rs1985278，rs6603797， r 关键词：位点识别全基因组关联分析 IV值决策树聚类分析 2 目录一.问题重述 4 1.1.问题背景4 1.2.问题提出4 二．问题分析 5 三．基本假设 6 四．模型建立与求解 6 4.1 问题

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

具有遗传性疾病和性状的遗传位点分析（B 题）.pdfVIP