第四章 信息论与生物医学1..pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第四章 信息论与生物医学 生命体本身是一个人复杂的信息传递、加工、处理和控制的系统。理论上,信息论与生物学和医学有着密切的关系。 1950年就有人把信息学引入生命研究中,但当时由于技术的限制,没有引起人们的重视。近10-20年,人们对生命科学的研究达到细胞、亚细胞、分子和量子水平,尤其是在遗传信息方面的研究取得重大成果,确立了信息理论在生物和医学研究方面的作用和地位。 本章简单地讨论信息论与生物和医学的关系。 4.1 DNA到蛋白质的通讯系统 从信息论的观点看,DNA中的四种不同碱基相当于将遗传信息编译成密码的四个字母,即遗传信息源中的四个字母。 问题:DNA分子中的碱基序列怎样排列才能得到20种氨基酸合成的蛋白质呢? 要求:碱基集合的信息熵必须不小于氨基酸集合的信息熵。 碱基:X表示,则H(X)=log4=2 bit 氨基酸:Y表示,则H(Y)=log20=4.32 bit 显然, H(X) H(Y),不满足要求。表明:输入信源中的不同元素不能对被控源的个元素进行控制。 必须对输入信源扩展成三次扩展信源X3,得到 H(X3)=3 H(X)=6bit H(Y),就满足要求了。 人们提出了核苷酸三联体的概念,即三个碱基编码组成一个遗传密码。 现代科学实验证明:现确认的三联体共有64个(43=64),其中61个代表20种氨基酸的密码,而其余三个代表终止密码。 下表显示了该三联体组合情况,其中用尿嘧啶(U)代替胸腺嘧啶(T)。 过程 :DNA遗传密码由信使核糖核酸(mRNA)转录下来,然后由转运核糖核酸(tRNA)把遗传密码转译成蛋白质的氨基酸顺序,合成蛋白质。 中心法则: DNA→ mRNA → tRNA →蛋白质 将其看作是一个通讯系统:输入是DNA碱基序列,输出是蛋白质的氨基酸序列。称之为DNA →蛋白质的通讯系统。 所有生命体都是由蛋白质和核苷酸组成的,蛋白质由20种氨基酸组成,核苷酸都包含碱基。 由中心法则,整个通讯系统是严格不可逆的。 通讯模型见下图: 首先研究输入信源X3,是碱基信源X的三次扩展信源。X的符号集合A={A,G,C,U}。 有研究表明,碱基序列中的碱基并非统计独立,它们之间是有依赖关系的,可以证实它们满足一阶马尔科夫链。 所以,信源X是一个一阶马尔科夫信源。(时齐和遍历的) 时齐遍历的一阶马尔科夫链满足: 信源X3是一阶马尔科夫信源X的三次扩展信源,所以X3也是一阶马尔科夫信源。 X3的符号集 其个数总共有64个。 所以遗传信道的输入信源为 其次,观察DNA→蛋白质的通讯信道,当遗传信道为[X3,P(y|x1x2x3),Y],Y的符号集B={B1,B2,……,B21}共21个符合,20个代表20种不同的氨基酸, B21代表终止密码。 此信道是平稳无记忆信道,信道的传递概率为P(y|x1x2x3)。 如B1代表丙氨酸,则 P (B1|GUC)= P (B1|GCC)= P (B1|GCA)= P (B1|GCG)=1,其余的取值P(y|x1x2x3)=0。 根据信道传递特性可求得输出符号Y的概率分布为: 所以信道容量: 在生命的世代相传中,绝大多数保持其遗传特性,说明遗传信息的传递是可靠准确的。但也存在变异(遗传信息传递过程出错引起的)。 所以,DNA →蛋白质的通讯系统不是完全理想的无噪信道(应该是有噪信道),将其看作两个信道串接而成: 所以密码到蛋白质的信道为[X3,P*(y|x1x2x3),Y],其传递概率为: 生命机体在遗传信息传递的过程中有一定的抗干扰能力。从信息学角度看,增加信源的剩余度可以提高信道的抗干扰能力。 所以,我们可以断定DNA碱基序列不但存储遗传密码,指导蛋白质合成;而且还存储较为复杂的“遗传语言”,控制遗传正确进行。 即DNA的碱基序列是一种有依赖的序列。 为了分析碱基序列的剩余度,Gatlin引进了两个偏离指标: 一阶偏离指标D1,表示与等概率分布信源的偏离; 二阶偏离指标D2,表示与统计独立分布信源的偏离; 当碱基序列是一阶马尔科夫信源时,有 实验表明:脊椎动物的偏离指标D2一般高于低级生物的D2。而脊椎动物的“遗传语言”结构有较高的剩余度时,主要是保持D1增加D2;相反低级动物主要是增加D1。 所以,可以用D2作为区分脊椎动物和其他低级动物的生物体指标。 故此,二阶偏离指标也称“进化指标”。 4.2 医学中的信息分析 信息熵是系统紊乱程度的测度。如果一个系统很随机、很混乱、无秩序,则此系统的信息熵就很大;反之,信息熵就很小。 把信息熵引伸为描述事物集合中相互对立性质的度量(无序与有序、随机性与确定性、杂乱与规则等),可以把信息熵的概念用于医学研究中。 一个生命体,可以看做是由相互联系、相互作用的各个部分组成的复杂系统;其任何一个部分都

文档评论(0)

586334000 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档