基于迭代自学习的原核生物操纵子结构预测.docxVIP

基于迭代自学习的原核生物操纵子结构预测.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于迭代自学习的原核生物操纵子结构预测 操纵子是原核生物组的独特组织结构。它由几个相邻结构基因和相关的遗传序列组成,以作为一个旋转矩阵的形式组成,以遗传横截面的形式成为基因表达的基本单元。根据这项研究,许多遗传因素的功能关系和表达可以通过操纵机制进行。形成同一组的基因通常具有相关的功能关系或与同一代谢路径相关。因此,对遗传因子结构的研究对于理解基因功能和调节网络非常重要。随着实验技术的快速发展,近年来用ra-seq和tillingarrys两种实验方法进行了大规模的序列测量。然而,到目前为止,人们只获得了大约10个重组组的数据,而且通过输入数据全面获取操纵子信息的方法仍然有限。鉴于目前原始生物群依次测量序列的速度远远快于前核生物群依次测量的速度,计算预测方法仍是获得原核生物群生物群生东西结构的重要手段。 概括地说,当前操纵子结构的计算预测方法主要通过对三类特征信息进行建模来实现.第一类是操纵子结构相关的序列特征信息,包括基因间距离、转录调控信号及其他信号、密码子的使用偏好等,其中基因间距离被认为是最有效的特征,在当前的预测方法中被广泛使用.第二类是基于比较基因组学获得的操纵子结构信息,其基本思想是构成同一操纵子的相邻基因在进化压力下表现出相同的保守性,由此可以确定一部分操纵子结构.但是,研究表明大多数操纵子结构在进化上是崭新的,通过这种同源性设计的识别方法只适合于进化过程中相对保守的那部分操纵子.第三类主要依赖基因产物功能注释的信息,包括Riley的功能分类、GO(gene ontologies)、蛋白质COG(clusters of orthologous groups of proteins)、代谢通路等.由于功能注释方法的复杂性,对新测序物种的注释可靠性还十分有限,因此功能注释信息对于新测序物种的操纵子预测并不十分理想. 基于上述三类信息,人们已发展了一系列的操纵子预测算法,包括隐马氏模型方法(HMM)、简单统计方法、贝叶斯决策、神经网络、支持向量机及其他模式识别方法.这些算法大多数都需要依赖训练集来确定数学模型的参数.但是,它们使用的训练集都来自少数的模式生物,如大肠杆菌Escherichia coli和枯草芽孢杆菌Bacillus subtilis等基因组.虽然RNA-seq和tiling arrays等技术已经提供了若干基因组的转录组试验数据,但这些数据尚未被广泛应用于当前的操纵子预测算法的模型训练和检测.应该指出的是,对训练数据的依赖和数据集的缺乏使得这些预测方法难以应用于大多数原核生物.例如,有人通过E.coli和B.subtilis等物种的已知操纵子结构数据作为训练集得到基因间距特征,试图作为普适的参数来应用于其他基因组,但是有研究表明不同基因组的基因间距分布并不完全相同,基因间距具有一定的物种特异性.近年来,人们发现,基于比较基因组学的操纵子预测方法可以减少对训练数据集的依赖,这一类方法虽然可以推广到任意物种,却无法预测全基因组的操纵子结构.综上所述,当前操纵子结构预测方法的研究需要克服两个难题:一是已知操纵子结构数据的相对缺乏;二是操纵子结构特征的物种特异性.随着原核生物基因组测序计划的不断加快,至2010年已有超过1 000种细菌和古细菌的全基因组序列和注释被发布,而人们对它们的操纵子结构的注释和认识还非常滞后.因此,发展有效的操纵子结构预测方法是当前原核生物基因组研究中亟待解决的问题. 本文基于对操纵子结构的认识,从转录相关的调控信号、基因间距离以及COG注释等特征出发,建立了描述操纵子复杂结构的概率模型,并提出了不依赖于特定物种操纵子数据作为训练集的迭代自学习算法.从算法设计而言,这种方法可以很好地克服上述两个难题.我们还通过比较证明,自学习的预测算法要优于依赖特定物种操纵子数据进行训练的预测方法.通过对实验验证的操纵子数据集的测试,结果表明本文的算法对于预测操纵子结构非常有效.在不依赖于任何已知操纵子信息的情况下,我们的算法在总体预测水平上超过了目前最好的操纵子预测方法,从而表现出有别于当前主要预测方法的优势. 1 材料和方法 1.1 纵子结构数据 所有基因组的全基因组序列及基因注释从RefSeq数据库下载得到(版本号30),共762个基因组. 操纵子的预测通常是基于预测基因对(gene pair,即2个相邻基因)是否属于同一操纵子来实现,本文也采用相同的策略.这里,基因对包括两类:操纵子基因对(operon gene pair)和边界基因对(boundary gene pair),前者是操纵子内的2个相邻基因,后者为同链上位于2个不同操纵子的相邻基因对(图1).为了刻画整个基因组的调控网络,我们把同链上被异链基因隔开的基因对也纳入预测范畴(尽管它们基本上不可能属于同一操纵子). 为测试预测的精

文档评论(0)

xlwkyc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档