浅析基因组学中的基因长度分布.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅析基因组学中的基因长度分布 基因是控制生物特性的基本单元,由不同的碱性遗传因素(a、t、g和c4)组成。碱基对的长度可以通过碱性对照的数量来测量。碱基对(巴比)、千碱基对(kb)和千碱基对(inega碱基对(mlp)的长度也称为基因大小。基因组中基因长度分布就是指基因组中预测的所有基因的长度变化范围及其每类长度的基因在基因组中所占的比例, 它可以从DNA和蛋白质两个水平上来分析描述, 是比较基因组学研究的一个内容。随着各种模式生物和人类基因组测序工作的逐渐完成, 建立了不同的模式生物基因组数据库, 为基因长度分布的研究提供了很多可利用资源。基因组大小、组成的进化很能体现出基因组整体的发展趋势, 进行基因组中基因长度分布研究无疑会促进比较基因组学和进化基因组学的发展。本文将从基因和蛋白质两个水平对基因组中基因长度分布的研究进行综述。 1 关于基因水平的研究 1.1 模式生物基因组测序进展 不同的物种其基因长度不同, 一般看来生物越高等基因的结构越复杂, 基因长度越大。从低等生物到高等生物它的基因组的复杂度与其说是由基因的数量来决定的, 还不如说更主要的是由基因长度来决定的。表1是关于几种模式生物体基因组测序进展的一个统计。从中我们可以看出微生物和大肠杆菌的平均基因长度为1kb, 到了真核生物面包酵母的平均基因长度达到2kb, 然后到果蝇虽然它的基因数量还没有线虫的多但它的平均基因长度已达到10kb, 最后到了哺乳类, 小鼠和人, 他们的平均基因长度已达到30-70kb。 另外, 冯立芹等人在基因组中开阅读框架长度的分布模型与基因组进化的研究中指出, 在使用ORF方面, 相对于原核生物而言, 真核生物偏好选择较长的序列。因此, 我们认为从原核生物到真核生物, 随着生物的进化, 不仅基因组大小存在由小到大的进化趋势, 而且, 在基因长度方面也存在着类似的进化, 即高等生物偏好使用较长的基因。 1.2 几种模式生物基因长度对外显子长度的影响 所有类型的真核生物都含有断裂基因, 断裂基因所占的比例在酵母中很低, 在低等真核生物中逐渐增大, 在高等真核生物中很少有连续基因的存在。真核生物的基因长度主要由内含子长度决定, 在高等真核生物中, 内含子变得很大, 同时基因大小也猛增。 表2是几种模式生物基因长度与外显子长度关系的比较表, 从中我们可以看出基因长度主要是由内含子过长造成的, 基因长度与平均Mrna长度之间没有必然联系, 同样基因长度与外显子数目之间也没有必然的联系, 因此基因长度主要是由其内部的内含子长度决定的。 不同来源内含子的分子大小相差悬殊, 已知猴病毒40 (SV40) 基因的内含子仅31bp, 而人的肌营养不良蛋白 (dystrophin) 基因的内含子长度达210 kbp。在人的结构基因中, 内含子的序列长度一般为外显子的5-10倍, 可见外显子只占基因长度的一小部分。 1.3 遗传信息—基因长度在同一物种、同一染色体和不同染色体变化很大 在人类基因组中基因长度差别很大, 例如人的血红蛋白的基因长度仅约1700bp, 而假肥大型营养不良症 (duchenne musculardystrophy, DMD) 基因长度为2300kb, 是迄今认识的最巨大的人类基因。物种的遗传信息—基因首先分成多条染色体, 每条染色体上有多个基因, 而每个基因大小不一样, 包含了或多或少的氨基酸密码子, 例如人第22号染色体中的基因长度长短不等, 长度范围从1000bp到583kb, 平均长度为190kb。人类基因组中, 基因分布在不同类型的isochore内是不均衡的, L区的基因大小平均为150kb, H1/H2区基因大小平均为54kb。分布在GC含量丰富区的基因, 内含子较小, 基因结构紧凑, 分布在GC含量较低区的基因, 内含子较大, 基因结构松散。 2 蛋白质生成的变化 一般认为蛋白质在起源时长度短而且简单, 在进化过程中变长而且变复杂了。蛋白质生成可以以不同的方式发生, 比如结构域复制、结构域插入、结构域重组和转座因子序列片段插入到编码区, 这是蛋白质变化的总趋势。以下是从不同方面对蛋白质长度分布的比较。 2.1 细菌基因组的代谢和细胞生理过程中的长蛋白的比例和长度 Zhang等人根据功能保守性环境因子方面分析了细菌与古细菌蛋白质长度的不同: (1) 细菌基因组的新陈代谢和细胞生理过程中的长蛋白的比例比古细菌基因组中的比例更大。 (2) 在许多有功能的基因中, 细菌特有的蛋白家族的蛋白质长度一般长于古细菌的。 (3) 在相同的蛋白家族中, 细菌的同源蛋白一般长于古细菌中相似的同源蛋白。 2.2 不同原核生物的蛋白质平均长度比 Daryi Wang等人比较了大肠杆菌与酵母、线虫、果蝇、拟南芥和人类中的同源蛋白, 结果发现这五种

文档评论(0)

xlwkyc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档