基于聚类分析的密码子水平研究在分子生物学领域的应用.docVIP

基于聚类分析的密码子水平研究在分子生物学领域的应用.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于聚类分析的密码子水平研究在分子生物学领域的应用

基于聚类分析的密码子水平研究在分子生物学领域的应用 张 然 随着分子生物学的发展,各种试验技术手段得到广泛的应用,使得我们得到的信息数据数量爆炸性的增长。尤其是近年,随着人类基因组计划的完成,后基因组时代的来临,传统的数学统计分析方法以难以适应新的要求。数据挖掘技术以其特有的知识获取能力在现代分子生物学研究领域获得一席之地。基因组、蛋白组水平的数据挖掘技术的应用已由许多文章反复回顾,本文的重点在于密码子水平的数据挖掘技术,尤其是聚类分析技术的应用。聚类分析的特点是在若干样品事先没有分类的情况下,根据所给样品的特征,按照模式所在空间的相邻性或相似性对若干样品进行分类。这种特性正好适用于分析分子生物学领域基因的演化和突变、亲源关系的阐明及基因与蛋白质的相互关系。 根据生物遗传的中心法则,遗传信息的传递是由DNA 到mRNA,再由mRNA 到蛋白质。遗传信息在由mRNA 到蛋白质的传递过程中是以三连密码的形式传递的。 每种氨基酸至少对应一个密码子,最多的有6种对应的密码子。编码同一种氨基酸的密码子称为同义密码子。在蛋白质的编码过程中,同义密码子的使用概率并不相同。某一物种或某一基因通常倾向于使用一种或几种特定的同义密码子,这些密码子被称为最优密码子(optimaI codon),此现象被称为密码子偏性(codon bias)。 密码子偏好与蛋白质结构功能的关系: 不同物种间密码子偏好的差异已经被广泛认识,编码不同功能蛋白的基因是否也存在明确的密码子偏好成为研究的关注点之一。有研究者对有关大鼠、黑猩猩、猕猴的60 种MHC I类和MHC II类相关基因的氨基酸序列和mRNA序列的密码子使用偏性之间的关系进行聚类分析[1]。 所使用的具体聚类算法为系统聚类法(hierarchial cluster analysis),其基本运算过程为:首先将n 个样品各自看成一类。然后计算样品之间的距离,并选择距离最小的一对并成一个新类。接着计算新类与其他类之间的距离,再将距离最近的两类合并。这样循环,每次减少一类,直至所有的样品合并成一类为止。 在对密码子的偏好进行分析时使用了密码子相对偏好概率(relative synonymous codon usage,RSCU)这一概念。 Rij为某一特定的mRNA 序列中特定密码子的相对使用概率;Nj为某一密码子在样本序列中的实际观察数;Naa是该密码子所编码的氨基酸的所有同义密码子在该样本中的实际观察数;k表示该氨基酸同义密码子数。聚类分析时将某一特定序列中每种密码子的相对使用概率组成一个变量组,这个变量组将被看成是多维空间中的一个点。经研究表明基因的类型和功能与该基因同义密码子的使用偏性有着密切的关系。功能和类型决定密码子使用模式的大的分类,而物种决定该大类中进一步的差异。 密码子的选择首先会影响翻译的速率,翻译速录的改变直接关系到了其编码蛋白的三维结构的形成和表达量。在结构方面由于蛋白质的功能很大程度上取决于其三维结构,体外试验也证明,就算是相同的蛋白质氨基酸序列,由于不同的折叠方式其生物活性也会有本质的区别,生物体中存在同意密码子和密码子偏好现象,密码子的选择直接影响到蛋白质翻译的速率。有学者利用聚类分析方法进一步研究了密码子相对偏好概率与蛋白质三维结构的关系[2]。作者选择了两类在三级结构上具有典型特点的蛋白作为分析对象,4-二硫化物核心单位蛋白指纹和肾上腺素受体蛋白指纹结构。用上述聚类方法进行分析,所有分析对象根据其密码子相对偏好概率被聚类为两组,并且与三级结构典型特点归类基本一致。通过聚类分析证明了密码子偏好与蛋白质三级结构存在一定的关系。 聚类分析也从另一个角度对蛋白质三维预测做出了贡献,目前的蛋白质结构预测还很不精确,一般是提供一系列具有不同能量层级的构象模型,将所获得的模型作两两比较,相似性用均方根偏差标度,然后设定一个阈值,相似性小于这个阈值聚成一类。每类所包含的模型个数不同,通常认为模型个数最大的一类对应的模型是质量最好的模型[8][9]。 有学者进一步对不同物种的不同功能基因进行聚类分析[4],证明物种问进化上的远近关系影响了这三个物种中类型或功能较近的基因的密码子使用偏好性的聚类结果,亲缘关系较近的物种具有相近的密码子用法。基因序列的一维信息中蕴含了蛋白质功能和物种问进化上的信息,用密码子的使用偏好性来作为判断未知基因功能和进行物种分类的一种新指标,是可行的。在后基因组时代,人们通过人类基因组计划获得了大量的功能未知基因,对这些基因功能的鉴定成为基因组学、蛋白质组学的首要人物,可以设想将未知功能基因的密码子相对偏好概率与已知功能基因进行聚类分析,为基因功能的鉴定进行初步的指导,有一定的应用意义。 在表达量方面

文档评论(0)

shenlan118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档