网站大量收购独家精品文档,联系QQ:2885784924

dna预测的两大类方法.docxVIP

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
dna预测的两大类方法 基因预测通常是对dna序列中编码蛋白质的预测,即结构基因。在原核生物中, 基因往往具有特定且容易识别的启动子序列 (信号) , 如“TATA盒”和转录因子。与此同时, 构成蛋白质编码的序列构成一个连续的开放读码框 (open reading frame, ORF) , 其长度约为数百个或数千个碱基对。除此之外, 原核生物的蛋白质编码还具有其他一些容易判别的统计学特征, 这使得对原核生物的基因预测能够达到较高的准确性。相反, 对于真核生物而言, 例如人类等, 基因的预测则更为复杂, 需要更高的要求和条件。一方面, 真核生物中的启动子和其他控制信号更为复杂, 有2个可被识别到的信号, Cp G岛及poly (A) 结合点, 目前还未被很好的了解。另一方面, 由于真核生物具有显著的外显子-内含子结构。例如人类的一个普通蛋白质编码基因可能被分为十几个外显子, 其中每个外显子的长度少于200个碱基对, 而某些外显子更可能只有20~30个碱基的长度, 使蛋白质编码的一些统计学特征变得难于判别。 近年来, 随着基因测序技术的迅速发展, 越来越多的生物基因组通过测序等手段揭示了它们最基本的遗传学特性, 这是当前生物学领域最具有现实意义的研究方向之一。而如何能够充分利用这些巨大和宝贵的生物学数据库, 也是目前生物学面临的挑战和难题, 其中基因的预测是完成系统测序的重要组成部分。基因预测是生物信息学领域中的一个重要研究方向, 是研究基因功能、表达和它们之间关系以及如何控制基因转录等工作的基础。现就基因预测的方法做以下概述。 基因预测方法主要有两大类:一类是基于相似性的预测方法, 一类是基于统计学模型的从头预测 (ab initio) 方法。 1 表达序列标签 基于相似性的基因检测方法的思想是由Gish和States第一次提出的。就是利用已知的m RNA或蛋白质序列为线索在DNA序列中搜寻所对应的片段。之后Snyder和Stormo第一次尝试将相似性的分析合并入基因预测算法。由于要对序列所有的外显子装配进行检测, 其计算的复杂性很高, Gelfand等建议使用剪接联配的方法解决外显子的装配问题, 即利用相关蛋白质推断外显子-内含子的结构。通过这种方法, 他们试图解决一个组合难题, 就是在基因组序列中寻找一个子序列集合, 当这些子序列串联 (剪接) 起来时, 适合已知蛋白质中的某一条。用这种算法可以识别出短的外显子或者一些具有少见密码子的外显子, 并且可以准确的装配10个以上外显子的基因。在一个与已知哺乳动物相关的人类基因测试样本中, 有一些与真实基因具有99%相关性的基因, 剪接联配可以正确识别87%的基因, 并且由于短的外显子 (5个氨基酸) 或选择性剪接引起的预测结果和真实的外显子-内含子结构之间的差异很小。后来, 表达序列标签 (expressed sequence tags, ESTs) 数据库和局部比对软件 (如BLAST等) 得到了迅速的发展, 再结合强大的生物学过程 (m RNA前体剪接等) 模型, 则可以准确的判断出剪接位点。EST_GONOME就是利用此算法进行基因预测的一个较好工具。例如, 用EST_GONOME成功预测出人类第16条染色体的粘端质粒c NFG9 (33 760 bp) 中含有2个长度分别是404 bp和898 bp的内含子, 这里用到了表达序列标签yo13c02.s1 (519 bp) 和粘端质粒c NFG9的比较。但想要用此软件得到最佳的比对结果, 对计算性能的要求比较高。后来发展的一些类似软件, 如sim4和Spidey等在计算速度上都有很大提升。并且sim4软件结合内含子长度罚分等加入了详细评分系统, Spidey软件则加入了更准确的剪接位点评分系统。但很难说哪种软件预测得更精确。因为它们都缺乏一个如何在c DNA和基因组相似度之间设置适当参数的理论, 所以这些程序几乎总是用默认参数, 这就导致了在此基础上的每一个软件只针对某些特定物种更准确。 一个相关基因预测的途径是从已知的基因组数据库中比对蛋白质序列或侧翼序列, 因为数据库中大多数的蛋白质序列是从c DNAs翻译衍生而来的, 并且c DNA和蛋白质序列的比对算法比较相似, 这就很容易把处理c DNA比对和蛋白质比对认为是单一的过程。然而, 理论上和实际上的应用有一定的差别。大多数的c DNA比对程序主要是对被转录的基因组位置的序列进行比对, 而蛋白质的比对程序则可用于关系较远的序列, 例如可用于发现一个已知蛋白质家族中的新蛋白质存在等类似的研究。在推测内含子-外显子结构时, c DNA序列能提供的证据要比蛋白序列提供的证据更直接一些。2004年, Birney等进一步完善了Genewise软件, 该软件主要用于蛋白质和DNA

文档评论(0)

ss_account + 关注
实名认证
文档贡献者

专注于文档制作,提供高质量文档

1亿VIP精品文档

相关文档