基于疾病与基因关联性分析遗传位点选取.docVIP

基于疾病与基因关联性分析遗传位点选取.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于疾病与基因关联性分析遗传位点选取

基于疾病与基因关联性分析遗传位点选取   【摘要】以2016年全国研究生数学建模竞赛B题“遗传性疾病和性状的遗传位点”提供的数据,按照1∶1的病例对照设计,运用Pearson卡方检验和病例组与对照组的碱基差异的正态分布情况各选取出24个可能的致病位点.将两种方法选取出的24个可能的致病位点与300个基因进行全基因组关联分析,找出最有可能的致病基因.   【关键词】遗传位点;Pearson卡方检验;正态分布检验;全基因组关联分析   【基金项目】四川省教育厅自然科学项目(14ZA0132)、西华师范大学科研基金(13E022).   一、研究背景   人类某些遗传疾病由某些特定位点的核苷酸发生变异引起[1],遗传疾病分为单基因疾病和复杂性疾病.SPNs是研究基因多态性和识别疾病相关基因的一种工具[2],孙志伟等人提出了一种快速的致病基因分析方法及算法FADG[3],并指出差异最大的SNP位点就是致病位点.人类基因组计划[4]成功测序,也促进了人类利用遗传标记SPNs对复杂性疾病进行全基因关联分析.全基因组关联分析[5]是应用人类基因组中大量的单核苷酸多态性为标记进行病例对照设计研究的关联分析.数据源于2016年全国研究生数学建模竞赛B题“遗传性疾病和性状的遗传位点”,其病例组和对照组的设计上采用随机抽样和1∶1的比例进行匹配,这种设计方式符合病例对照设计[6],它是遗传病抽样设计中简单常用的匹配方式[7].   二、位点编码信息的数据处理   图1位点分布图   以位点rs3094315为例,先将3种碱基对(TT,TC,CC)分别转化为数值(22,23,33),在各位点上取出最大的编码记为2,最小的记为0,其他的记为1,统计出对照组和病例组各位点处3种基因型的数目.在处理碱基编码信息时,认为碱基的编排顺序不同则基因型不同,由两种不同的碱基组成的相异的基因型有12种,即AT、AC、AG、TA、TC、TG、CA、CT、CG、GA、GT和GC.从9 445个位点中选取最有可能的致病位点,由MATLAB编程画出位点的分布情况如图1所示,从图中可知选择致病位点有一定的难度,故用计算来选取致病位点.   三、Pearson卡方检验选取致病位点   Pearson卡方检验方法[8]可表示成,   χ2=∑ni=1(Qi-Ti)2Ti.(1)   其中,Qi是病例组在各位点第i类碱基对的观测频数,Ti是对照组在各位点第i类碱基对的理论频数.卡方检验的显著标准设置为α=10-6,自由度为n-1=2,得到χ2临界值为27.631 0.以此为标准,用MATLAB编程选卡方值大于临界值的32个位点.序号为8 258和8 496这两位点,χ2值无穷大,遗传学上可理解为未患该疾病的人群中不存在CC这种碱基对,可认为该位点的患病概率较大.   卡方检验选出的32个可能的致病位点中,AT、TA、CG、GT和GC碱基组成类型未出现,但未必说明致病位点不含它们.根据各类型碱基组成在9 445个位点中所占频数,按一定的比例选出可能的致病位点,如,AC、AG、TC、TG、CA、CT、CG按照1∶4∶4∶1∶1∶4∶4进行选择,通过MATLAB编程运行得到可能的24个致病位点,见表1.   四、按差异的分布选取致病位点   由A、T、C、G互异碱基组成的基因型共有12种,在各类型中计算出对照组与病例组的3种基因型的平均差异,再分析病例组碱基对距离平均差异值的分布情况,从分布情况角度选取致病位点.计算12种基因型各自的平均差异公式为   V=∑mj=1∑ni=1(Qi-Ti)m.(2)   其中,Qi是病例组在各位点第i类基因型的观测频数,Ti是对照组在各位点上第i类基因型的理论频数,n为各位点的基因型数,即n=3,m为12种互异碱基组成的基因型在9 445个位点中出现的位点个数.由MATLAB编程运行得到12类互异碱基组成的基因型平均差异.   判断病例组碱基对距离平均差异值的分布情况,以CA类型为例,根据(2)式得出对照组与病例组在各位点碱基对AA、CA和CC的差异个数,分别用向量S0,S1,S2来表示.将上述数据S0,S1,S2导入IBM SPSS Statistics 20中,进行如下操作步骤:分析、描述统计、Q-Q图、选择正态分布检验,得到3种碱基对的正态Q-Q图,如图2所示.若碱基对AA、CA和CC的差异个数服从正态分布,则CA类型碱基对的差异数也服从正态分布[9].   图2AA碱基对Q-Q图   MATLAB工具箱提供了ttest函数[10]对未知标准差的某正态分布的均值进行检验,调用格式为:h=ttest(x,m,alpha,tail).其中,x为待检验的样本,alpha为显著性水平,在这里alpha取默认值0.

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档