网站大量收购独家精品文档,联系QQ:2885784924

R语言的遗传模块.doc

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
我接触R的时间算是不短了,已经两年多了。期间断断续续的看了些R网站上的材料。现在已经习惯了用R做数据分析了,并且越来越喜欢用R来做分析了。之前我用过SAS,SPSS也试过Stata,但是这三个软件都没有专门的遗传统计模块(至少国内流行的盗版里没有)。所以和其它专业相比,我想R对我们也许更有用些。 COS论坛里提到R在genetic statistics里的应用的帖子很少。我在这里写一些我平时用到的遗传统计方面的package的说明,一来算是个人小结再者算是抛砖引玉吧,希望COS论坛里的各位多写些相关的东西。 Introduction. CRAN Task View: Statistical Genetics CRAN Task View当中有一个单独的Genetics部分,里面列出了40个遗传统计相关的Package和相关链接。这足可以看出R在遗传统计学当中的影响和作用。 里面核心的core package有以下三个: genetics, gap, 和haplo.stats。还有一个我经常用到的包是DGCgenetics,算是对genetics包的扩展。以后我会提到以上几个包里面的一些函数。 大致包括以下几方面的内容: 1. 以上几个package对数据格式的要求; 2. 多态位点的基本信息(MAF等); 3. Hardy-Weinberg平衡检验; 4. LD的计算; 5. 关联研究常用检验方法; 6. Power的计算; … 先说一下前面提到的几个包的安装吧,其实很简单。一个一个用install.packages()函数来安装当然可以。相对简单点的方法是用CRAN Task Views里提到的ctv包来批量安装。 install.packages(ctv) #首先安装ctv package library(ctv) #载入ctv package install.views(Genetics,coreOnly = TRUE) #安装genetics, gap, haplo.stats三个核心包及依赖的包。如果不加捜牯?湯祬吽啒居则会安装所有的40个遗传统计相关的package。 install.packages (genetics, coreonly = TRUE) DGCgenetics包的下载地址是http://www-gene.cimr.cam.ac.uk/clayton/software/DGCgenetics_1.0.zip。你需要先下载这个包,然后本地安装。方法大家应该都知道,Rgui的Packages菜单的Install package(s) from local zip 。files 数据格式(1) 遗传研究收集的数据有自己的特点。往往是数据集中即包含一般的表型数据(分类和连续变量;如血压水平,BMI和性别等),又包括基因型数据。分析时往往还需要用到不同的遗传模型,什么显性、隐形、加性模型,或者是按照分类变量来处理(有时候也称为共显性模型)。用SAS或SPSS分析遗传数据时,如果要用不同的遗传模型进行数据分析的话,必须先进行数据转换,过程相对复杂。 R中的genetics包专门为基因型数据提供了一个新的class(类),你可以很方便的用genotype()或makeGenotypes()函数将不同形式的初始基因型数据转换成基因型数据,并为数据加上genotype类属性。genetics包还提供了相应的summary.genotype()和plot.genotype()函数。你可以很方便的用summary()函数获取基因型数据的基因型频率、等位基因频率等基本信息,用plot()函数做出基因型的柱状图。 先说一下genotype()函数,该函数是genetics包里最基本的函数。可以将以下四种形式的初始基因型数据转换成便于分析的带有genotype class的数据。 1. 以一个字符分隔的向量 E.g. g1 - genotype(c(D/D,D/I,D/D,I/I,D/D,NA)) g2 - genotype(c(C-C,C-T,C-C,T-T,C-C,\),sep=-) 2. 可以按某一位置分隔的向量 E.g. g3 - genotype(c(DD,DI,DD,II,\),sep=1)#sep=1表示在位置1后分成两个allele 3. 两个分开的向量 E.g. allele1 - c(D,D,D,I,\) allele2 - c(D,I,D,I,\) g4 - genotype(allele1, allele2) 4. 数据框或矩阵中的两列 data - data.frame(allele1 = c(D,D,D,I,\),

文档评论(0)

ailuojue + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档