- 109
- 0
- 约3.3万字
- 约 40页
- 2019-09-13 发布于江苏
- 举报
参赛密码
(由组委会填写)
题目: 具有遗传性疾病和性状的遗传位点分析 (B题)
摘要:
本文根据1000个样本的遗传病和性状信息,以及9445个位点上的遗传信息,利用
多种统计分析、优化软件,进行大批量的数据处理和数据挖掘,主要完成了以下几个方
面的工作:
对于问题1,传统的基于碱基的编码方式是以碱基为基本单位,对C,T,A,G 四个碱
基对应编码0(00),1(01),2(10),3(11)四个数字。由于本文所有数据最小分析单元为位
点,每个位点的观测对应两个碱基,因此我们以位点为基本单位,对等位基因TT,TC,CC
编码0(00),1(01),2(10),相比传统的的编码方式,基于位点的碱基对数值编码方式能
有效减少内存,便于数据分析。
对于问题2,首先对位点数据进行预处理,考虑到基因的遗传必须满足基本的传统
统计特征,因此,在一定的显著性水平阈值下,基于最小等位基因频率和Hardy-Weinberg
平衡定律对题目所给的全基因组进行分析,从而剔除了97个不满足条件的位点。在预
处理之后,为寻找与疾病A可能相关的位点,采用列联表分析方法,通过卡方检验和
Fishers精确检验,计算每个SNP等位基因与疾病A 的统计量,统计检验显著的位点即
为与疾病A相关联的致病位点。为进一步筛选出与疾病A关联性较强的位点,我们引入
了在信用评分、营销响应预测中常用的变量选择方法——信息值IV,通过计算每个位点
关于疾病A 的IV值,IV值越大则影响度越高。综合对比两种方法所得的致病位点,并
通过具体分析排除信息值为无穷大的特殊位点,最终,我们认为,与疾病A最有可能关
联的致病位点是rs2273298。
对于问题3,考虑基因与疾病之间的关联性,实际上是个分类预测问题,即当个体
拥有某基因时,判断其进入健康组或患病组的概率,因此,我们采用决策树的方法求解。
考虑到若直接对300个基因分别做决策树,判断基因与疾病的关联性,计算量过大,故
我们采取降维的思想。由于300个基因中位点对应唯一基因,因此我们先以位点为研究
对象,基于问题2的统计检验结果和相关挑选规则,选出满足筛选条件的10个位点,
也即10个基因。在此基础上,我们对每个基因做决策树,以混淆矩阵和ROC 曲线作为
评价标准,比较各决策树的优劣程度。最终发现gene102和gene55的准确率最高,分
别为63.8%和61.6%。因此我们认为这两个基因与疾病A 的关联性最强。
对于问题4,由于观测样本包含10个性状的不同观测的组合,其理论的性状类别有
210即1024种,即使考虑1000个样本的实际性状表现不超过1000,显然维度过高,因
此先对样本的性状表现做聚类分析,提出出有代表性的综合性状。我们考虑基于类平均
法的距离公式,对样本进行系统聚类,以R2和偏R2为参考指标,最终确认了
7,16,20,50,100等不同的聚类数。在确认聚类数后,利用k-均值聚类法,计算出基于
1
每一个聚类数所得的综合性指标,类似于问题2,再将综合指标关于位点做统计检验,
找出与综合指标有显著关联的10个位点。进而,为了考察所选位点的正确性,我们进
一步对所选的10个位点和原始1000个样本的10个性状做关联性分析,统计结果显示
所挑选的10个位点中的8个位点,都与题目所给的10个初始性状中的一个或多个性状
高度相关。因此,我们认为与10个关联性状所有表现出的综合性状相关的位点有
rrs4584380,rrrs2075972,rs1985278,rs6603797,
r
关键词:位点识别 全基因组关联分析 IV值 决策树 聚类分析
2
目录
一.问题重述 4
1.1.问题背景4
1.2.问题提出4
二. 问题分析 5
三. 基本假设 6
四. 模型建立与求解 6
4.1 问题
原创力文档

文档评论(0)