具有遗传性疾病和性状遗传位点分析探讨.pdfVIP

具有遗传性疾病和性状遗传位点分析探讨.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
参赛密码 (由组委会填写) “华为杯”第十三届全国研究生 数学建模竞赛 学校 上海对外经贸大学 参赛队号 1. 詹德勇 队员姓名 2. 段 伟 3. 谢灵艳 参赛密码 (由组委会填写) 题目: 具有遗传性疾病和性状的遗传位点分析 (B题) 摘要: 本文根据1000个样本的遗传病和性状信息,以及9445个位点上的遗传信息,利用 多种统计分析、优化软件,进行大批量的数据处理和数据挖掘,主要完成了以下几个方 面的工作: 对于问题1,传统的基于碱基的编码方式是以碱基为基本单位,对C,T,A,G 四个碱 基对应编码0(00),1(01),2(10),3(11)四个数字。由于本文所有数据最小分析单元为位 点,每个位点的观测对应两个碱基,因此我们以位点为基本单位,对等位基因TT,TC,CC 编码0(00),1(01),2(10),相比传统的的编码方式,基于位点的碱基对数值编码方式能 有效减少内存,便于数据分析。 对于问题2,首先对位点数据进行预处理,考虑到基因的遗传必须满足基本的传统 统计特征,因此,在一定的显著性水平阈值下,基于最小等位基因频率和Hardy-Weinberg 平衡定律对题目所给的全基因组进行分析,从而剔除了97个不满足条件的位点。在预 处理之后,为寻找与疾病A可能相关的位点,采用列联表分析方法,通过卡方检验和 Fishers精确检验,计算每个SNP等位基因与疾病A 的统计量,统计检验显著的位点即 为与疾病A相关联的致病位点。为进一步筛选出与疾病A关联性较强的位点,我们引入 了在信用评分、营销响应预测中常用的变量选择方法——信息值IV,通过计算每个位点 关于疾病A 的IV值,IV值越大则影响度越高。综合对比两种方法所得的致病位点,并 通过具体分析排除信息值为无穷大的特殊位点,最终,我们认为,与疾病A最有可能关 联的致病位点是rs2273298。 对于问题3,考虑基因与疾病之间的关联性,实际上是个分类预测问题,即当个体 拥有某基因时,判断其进入健康组或患病组的概率,因此,我们采用决策树的方法求解。 考虑到若直接对300个基因分别做决策树,判断基因与疾病的关联性,计算量过大,故 我们采取降维的思想。由于300个基因中位点对应唯一基因,因此我们先以位点为研究 对象,基于问题2的统计检验结果和相关挑选规则,选出满足筛选条件的10个位点, 也即10个基因。在此基础上,我们对每个基因做决策树,以混淆矩阵和ROC 曲线作为 评价标准,比较各决策树的优劣程度。最终发现gene102和gene55的准确率最高,分 别为63.8%和61.6%。因此我们认为这两个基因与疾病A 的关联性最强。 对于问题4,由于观测样本包含10个性状的不同观测的组合,其理论的性状类别有 210即1024种,即使考虑1000个样本的实际性状表现不超过1000,显然维度过高,因 此先对样本的性状表现做聚类分析,提出出有代表性的综合性状。我们考虑基于类平均 法的距离公式,对样本进行系统聚类,以R2和偏R2为参考指标,最终确认了 7,16,20,50,100等不同的聚类数。在确认聚类数后,利用k-均值聚类法,计算出基于 1 每一个聚类数所得的综合性指标,类似于问题2,再将综合指标关于位点做统计检验, 找出与综合指标有显著关联的10个位点。进而,为了考察所选位点的正确性,我们进 一步对所选的10个位点和原始1000个样本的10个性状做关联性分析,统计结果显示 所挑选的10个位点中的8个位点,都与题目所给的10个初始性状中的一个或多个性

文档评论(0)

peace0308 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档