R语言在遗传统计学的应用 .ppt

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
R语言在遗传统计学的应用

遗传与疾病 人类的某些性状及部分疾病与人体的遗传因素密切相关 阐明遗传因素与人体疾病或健康状态的关系有非常重要的意义 遗传统计学在这其中起着至关重要的作用 遗传与疾病 疾病的易感基因研究 研究的特点 收集的数据即包含一般的表型数据也包含基因型数据 数据分析时需要用到不同的遗传模型 需要一些遗传统计特有的分析方法:LD的计算,家系图的绘制等 R在遗传统计中的应用 数据整理 获取位点的基本信息 Hardy-Weinberg平衡检验 连锁不平衡的计算 关联研究常用分析方法 家系图的绘制 …… 数据整理 R中的genetics包专门为基因型数据提供一个新的类 — genotype genotype函数是genetics包里最基本的函数,可以将以下四种形式的初始基因型数据转换成便于分析的带有genotype类的数据 以一个字符分隔的向量 g1 - genotype(c(C-C,C-T,C-C,T-T, C-C,),sep=-) 2. 可以按某一位置分隔的向量 g2 - genotype(c(DD,DI,DD,II,),sep=1) 3. 两个分开的向量 allele1 - c(D,D,D,I,) allele2 - c(D,I,D,I,) g3 - genotype(allele1, allele2) 4. 数据框或矩阵中的两列 data - data.frame(allele1 = c(D,D,D,I,), allele2 = c(D,I,D,I,)) g4 - genotype(data$allele1,data$allele2) 或 data1 - cbind(allele1 = c(D,D,D,I,), allele2 = c(D,I,D,I,)) g5 - genotype(data1) 获取位点的基本信息 多态位点的基本信息包括:位点分 型成功率 (call rate)、等位基因频 率、基因型频率、杂合度和多态信 息含量 (PIC) 一个简单的例子: #载入popn数据 data(popn,package=DGCgenetics) #获取A位点的基本信息 summary(popn$A) Number of samples typed: 1489 (96.9%) Allele Frequency: (2 alleles) Count Proportion 1 1786 0.6 2 1192 0.4 NA 94 NA Genotype Frequency: Count Proportion 1/2 704 0.47 2/2 244 0.16 1/1 541 0.36 NA 47 NA Heterozygosity (Hu) = 0.4802686 Poly. Inf. Content = 0.3648558 Hardy-Weinberg定律 Hardy-Weinberg定律是由英国数学家哈迪(D.H. Hardy)和德国医生温伯格(W. Weinberg)于1908年分别独立发现的,也称遗传平衡定律~(genetic equilibrium law) 该定律可以简单描述为,遗传平衡群体的等位基因频率与基因型频率在世代间维持恒定 该定律的适用条件是:随机婚配,群体足够大,没有突变、选择、迁移和遗传漂变 Hardy-Weinberg平衡检验 关联研究中Hardy-Weinberg平衡检验常被用来评价基因分型的质量。我们通常对病例和对照组分别进行Hardy-Weinberg平衡检验 如果某一位点在对照组中不符合Hardy-Weinberg平衡,我们通常会怀疑该位点的基因型鉴定的质量 如果该位点在对照组平衡而在病例组出现不平衡,则该位点可能和疾病有关 Hardy-Weinberg平衡检验 genetics包里面提供两种不同的检验方法 一种是Pearson‘s chi-square test,可以用HWE.chisq函数进行该检验,另一种是Fisher exact test,对应于HWE.exact函数 HWE.chisq常用于MAF较高、样本量较大的场合;MAF较低的位点建议使用HWE.exact函数 LD的计算 连锁不平衡则是指人群中两个位点处在同一个单体型的频率比期望值高

文档评论(0)

qiwqpu54 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档