生命信息遗传中的若干数学问题.docVIP

下载本文档

1
0
约9.95千字
约 6页
2016-01-30 发布于天津
举报
版权申诉

生命信息遗传中的若干数学问题.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

生命信息遗传中的若干数学问题

生命信息遗传中的若干数学问题张新生　王梓坤摘　要　自1953年J. Watson和F. Crick发现DNA的双螺旋结构，人们对生命信息遗传的研究进入了一个崭新的时代，相继发现了“遗传密码字典”、“遗传的中心法则”等，使人们对生命是如何一代一代繁衍的，有了初步的了解. 但离真正揭开生命信息遗传之谜还差之甚远. 1987年,美国开始了人类基因组研究计划，任务有二，第1是“读出”人基因组全部核苷酸的顺序；第2是“读懂”，即找出全部基因在染色体上的位置，了解它们的功能. 第1步工作将在2002年左右完成，整个基因组测序完成后的数据可以构成一本100万页的书，其上只有4个字母的反复出现. 如何处理、存储和分析这些数据？这已不是生物学家本身可以解决的问题，需要其他学科，特别是数学与计算机学科的介入. 首先介绍了分子生物学的一些最基本的知识，然后着重介绍了目前人类基因组研究中的若干问题及其所用到的数学方法与模型. 关键词　人类基因组生物信息学(Bioinformatics) 隐马尔可夫模型(HMM) 1 背景与基本知识　　生命的基本单位是细胞，它由细胞膜、细胞质和细胞核三者组成，遗传信息储存在细胞核中. 人的细胞核中含有23对染色体，染色体含DNA（脱氧核糖核酸）和蛋白质. DNA经螺旋、扭曲、折叠等压缩到万分之一并与蛋白质一起而组成染色体. 　　DNA是一种大分子，由两股长链以螺旋式构成，这种螺旋结构是在1953年由J. Watson和F. Crick提出，并获1962年的Nobel奖，是20世纪最伟大的科学发现之一. 　　DNA分子上的一个个有生物功能的片段是基因. 基因由若干按一定顺序排列的核苷酸组成. 核苷酸由磷酸基团、脱氧核糖及碱基构成，有4种不同的碱基，即：腺嘌呤、鸟嘌呤、胞嘧啶及胸腺嘧啶，分别用A, G，C，T表示. 核苷酸按其所含碱基的不同也分为4种. 在DNA的双股上，A，T成对出现，G，C也成对出现，每对称为一个碱基对. 　　遗传密码在DNA的链上，密码由4种不同的核苷酸按一定顺序排列而成，即可看成由4个字母A，G，C，T排列而成. 据估计，人类的DNA约含有30亿个密码，排列组成至少10万条基因. 决定人体蛋白质的20种氨基酸的遗传密码已找出，先由A, G, C, T中每3个字母重复排列成一密码子，共有43=64个密码子. 每一密码子对应一种氨基酸；但由于只有20种氨基酸，故这种对应只能是多对一的，例如AGA，AGG都对应于精氨酸，此种对应关系已完全确定，称为遗传密码字典. 使人们惊叹不已的是，自然界所有的生命形式都共用这本密码. 在确定了三联体码在DNA上线性串接的结合方式后，发现了为蛋白质编码的基因结构. 这些基因在DNA上所处的位置，称为DNA的编码区，约占整个基因组的3%~5%，其余部分习惯上统称为“废物(Junk)”DNA. 在对编码区上DNA的结构所进行的40多年的研究工作中，已造就了几十名Nobel奖获得者. 然而，“Junk”DNA中包含的信息也许更多. 总之，　　细胞细胞核染色体蛋白质（含氨基酸）、DNA（由核苷酸组成）基因（上有密码子，即由A，G，C，T组成的三联体码）. 1987年开始，美国启动人类基因组研究计划，任务有二，第1是“读出”人基因组全部核苷酸的顺序，第2是“读懂”，即找出全部基因在染色体上的位置，了解它们的功能. 用数学的语言来说，人类基因组计划的最基本、最直接的结果是得到一个由4个字母（A，G，C，T）可重复排列而组成的长度为3×109的一维链. 解读后，人们不仅获得静态的结构信息，而且还能得到动态的四维（时空）调控信息. 目前国际上找到了全长基因约2万条, 平均每天能找到9条. 最近报道，复旦大学发明了一种新技术，每日能找到15条. 科学家们把此计划与40年代的曼哈顿计划（研究原子弹、氢弹）和60年代的阿波罗计划（宇航、登月）相比. 2 目前基因组研究中的若干数学方法 2.1 概率统计方法　　概率统计是较早进入生命科学研究领域的学科之一，早在20世纪40~50年代，Fisher和Wright就用它研究过数量遗传学(见文献[1]). 下面给出几个例子说明它在当今人类基因研究中的应用. 2.1.1 隐马尔可夫模型(HMM) 隐马尔可夫模型(Hidden Markov Models)是由两个随机变量序列组成：一个是观测不到的马尔可夫链，{Yn: n≥0}, 另一个是可以观测到的随机序列{Xn: n≥0}, 且已知两者间有如下的联系: n，条件概率为已知. {Yn, n≥0}称为隐马尔可夫链，{Xn, n≥0}称为其观测链. 　　隐马尔可夫模型已在语音识别中得到广泛应用[2，3]，80年代末开始应用于计算生物学. 目前，隐马尔可夫模型在人类基因组研究的许多方面都有广泛的应用