统计学在人类基因组计划的研究中的应用.pdfVIP

统计学在人类基因组计划的研究中的应用.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
统计学在人类基因组计划研究中的应用 张新生唐晓静 构起,人们对生命信息遗传的研究进入了一个崭新的时代,使我们对生命是如何 一代一代的繁衍有了初步的了解。但离真正揭开生命信息遗传之谜还差之甚远。 1990年开始,美国启动人类基因组研究计划,原计划用15年的时间完成两个任务, 第一是“读出”人类基因组全部核苷酸的顺序;第二是“读懂”,即找出全部基因 在染色体上的位置,了解它们的功能。第一步工作将提前于2003年完成,但第二 个任务远非15年之内能完成的。整个基因组测序完成后的数据可以构成一本大约 100万页的“天书”,其上只有4个字母的反复出现。如何读懂这本“天书”,将是 对所有科学家的挑战。’ 一生命的基本单位是细胞,它由细胞膜、细胞质和细胞核三者组成,遗传信息 储存在细胞核中。人的细胞核中含有23对染色体,染色体含DNA(脱氧核糖核酸) 和蛋白质。后者经螺旋,扭曲,折叠等压缩一万倍而成染色体。DNA分子上的一 个个有生物功能的片段是基因。基因是由若干按一定顺序排列的核苷酸组成。核 苷酸由磷酸基团、脱氧核糖、及碱基构成,有四种不同的碱基,即:腺嘌呤、鸟 嘌呤、胞嘧啶及胸腺嘧啶,分别用A、G、c、T表示。核苷酸按其所含碱基的不同 也分为四种。在DNA的双股上,A、T成对出现,G、C也成对出现,称每对为一个 碱基对。 遗传密码在DNA的链上,密码由四种不同的核苷酸按一定顺序排列而成,即 可看成由四个字母A、T、G、C排列而成。据估计,人类的DNA约含有30亿个密 码,排列组成至少10万条基因。先由A、G、c、T中每3个字母重复排列成一密 码子,共有4’=64个密码子。每一密码子对应于蛋白质中的一种氨基酸;但因只有 20种氨基酸,故对应只能是多对一的,例如AGA、AGG都对应于精氨酸,此种对应 关系已完全确定,称为遗传密码字典。使人们惊叹不已的是,自然界所有的生命 形式都共用这本密码。.对于生命的最小基本单位一细胞中所包含的信息遗传的基 本结构可有如下表示:细胞]细胞核3染色体]蛋白质(含氨基酸)、DNA(由核 苷酸组成)]基因(上有密码子,即由A、G、C、T组成的三联体码)。 在人类基因组研究计划的目标中,主要要完成四个图谱:遗传图谱、物理图 谱、序列图谱和基因图谱,前两个已基本完成,第三个将在2003年完成。本文的 主要目的是简单介绍一下在人类基因组计划中和DNA序列分析中用到的一些概率 统计方法。 概率统计是最早进入生命科学研究领域的学科之一,孟德尔的两个著名的遗 传定律的表述都与概率有关。早在本世纪四、五十年代,Fisher和Wright就用概 率统计的理论研究数量遗传学。‘下面给出几个例子说明它在当今人类基因组研究 中及在人类遗传疾病基因定位方面的一些应用。 1.遗传图谱(Genetic Map)与连锁分析(LinkageAnalysiS) 遗传图又称连锁图,它主要反映哪些基因在同一条染色体上,哪些基因在不 同的染色体上,对于在同一条染色体上的基因可反映出他们之间的相对位置。它 所涉及的数学、统计方法比较广泛,包括假设检验、参数估计、概率论及数值优 化等。例如在进行最简单的两点的连锁分析时首先要估计它们的重组率 (Recombination Fraction),最常用、并且较有效的方法是计算它的最大似然估 计。然后,再进行假设检验,看它们的重组率是否为1/2,如是,则它们不在同一 条染色体上,否则,它们相互连锁,在同一条染色体上,重组率的值越小说明此 两条基因在同一条染色体上的位置越靠近。在进行多点连锁分析时就需要用到所 Chain MonteCarlo)方法。近来,由美 谓的McMC一马尔科夫链蒙特卡罗(Markov 国麻省理工学院的人类基因组研究中心负责人(LanderE.S.)提出的第三代遗传标 Nucleotide 记系统,称作SNP(Single Polymorphysm)的遗传标记系统,即单核苷 酸多态性标记。依此标记系统为基础的遗传图谱的建立,需要更多的数理统计方 法。另外,与此紧密相联系,并且相当重要的问题是人类遗传疾病基因的定位问 题,我们目前正与香港大学统计系的冯荣锦教授及香港大学生物信息中心合作进 行基

您可能关注的文档

文档评论(0)

youyang99 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档