- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
蜡状芽胞杆菌acc10485个蛋白质编码基因的测定
目前,400多种细菌和老细菌已经完成了整个重组过程。此外,在序列中,由于疾病、遗传、生化等方面的快速积累,序列序列是机会快速积累的,这为生物遗传、进化和生化方面提供了新的机会。这些领域的深入研究在很大程度上取决于相应矩阵中蛋白质编码基因的注释质量。在研究序列完成后,计算机软件通常用于识别遗传信息区域并确定遗传信息的分类,但这种方法不可靠。大多数预测的基因是“hyphic”,它们的功能未知或可疑。一些注释的基因不是编码的蛋白质,而某些编码的蛋白质的基因被遗弃。对于一些原始注释中存在较大缺陷的重组重组重组,需要重新检查和功能注释。否则,问题数据的使用可能会导致严重的错误扩散效应。例如,对于爱热泉生老细菌aeropinxk1,不同的研究团队给出了不同预测的新的基因注释结果。
一个合理的编码蛋白质功能注释,既要提供尽可能多的生物学信息,又要避免过度预测,得到一些错误的结果.美国国家生物技术信息中心(NCBI)对GenBank中的序列数据进行检查,建立了更为准确全面的RefSeq数据库,一般作为相对标准的基因组注释数据来使用.然而,RefSeq的注释也不是完美的,它仍然需要时常改正和更新.这种注释不准确的情形在蜡状芽孢杆菌(Bacillus cereus)ATCC 10987的基因组中尤为明显.
蜡状芽胞杆菌是一种球状的革兰氏阳性细菌,在通常情况下,是一种土壤微生物与炭疽芽胞杆菌(Bacillus anthracis)及苏云金芽胞杆菌(Bacillus thuringiensis)具有高度的亲缘关系,染色体序列极其相似,甚至可以认为属于同一物种.这些细菌具有很高的医药价值,在比较基因组学分析中有重要意义,是微生物基因组不可多得的理想模型.如Zhang等对其进行比较分析,用于基因组岛的识别研究.
Bacillus cereus ATCC 10987是一种从乳制品中分离出的细菌品种,全基因组测序完成于2004年.它与会引起炭疽热致死的病原菌(Bacillus anthracis Ames)非常接近. Bacillus cereus ATCC 10987含有一个大质粒pBc10987,该质粒与Bacillus anthracis的pXO1质粒在基因组成上具有相似之处,但是缺少与炭疽热毒性相关的致病岛.Bacillus cereus ATCC 10987与Bacillus anthracis Ames在染色体和大质粒上的相似性,使得Bacillus cereus ATCC 10987成为研究炭疽热的病原菌Bacillus anthracis Ames的很好模型.
本文联合使用原核生物基因识别软件Zcurve和Glimmer,结合BLASTX数据库同源性搜索,对一株Bacillus cereus ATCC 10987基因组中的蛋白质编码基因进行了分析,并将原RefSeq数据库标注的5 603个基因重新确定为5 180个基因.这些更为可靠的基因注释为该细菌亲缘物种的深入研究提供了基础,可用于细菌比较基因组学等重要方面.例如用作致病岛的分析,将具有很高的医药价值和理论意义.
1 材料和方法
1.1 蛋白质编码区和假基因的数
在表S1中,显示了物种的名称、组群、染色体序列编号等信息.此外,还显示了基因组大小和RefSeq注释的基因数目的信息.可以想象,原核生物染色体序列的大小与其中包含的基因数目可能会有一些关联.Mira, et al及Doolittle都分别描述了这种相关性,这在新收集的细菌和古细菌基因组数据中也仍然被观察到. RefSeq注释的基因数目与染色体序列的大小呈现明显的线性关系.其中,类I包含了3种细菌,分别为Mycobacterium leprae TN(NC_002677)、Sodalis glossinidius str‘morsitans’(NC_007712)和Trichodesmium erythraeum IMS101(NC_008312).M. leprae的蛋白质编码区仅占整个序列的49.5%,假基因的数目为1 116个;S. glossinidius的蛋白质编码区也只占到完整序列的51%,另有972个假基因;T. erythraeum的假基因数目也已经超过了600个.这些基因组含有大量的假基因,或者非编码区占整条序列的比例远高于通常细菌的比例范围. 因此排除了类I的3个基因组,而使用余下的407个物种(共446条染色体序列)进行线性回归拟合,相关系数R达到了0.988.
由图S1可以看出,依据RefSeq注释的Bacillus cereus ATCC 10987的基因数目(5.22 Mb, 5 603 genes)明显远离了这条拟合曲线.而与其极度同源、染色体序列非
原创力文档


文档评论(0)