系统发生足迹技术在巴西固氮螺菌基因组特征搜寻上的应用_计算机论文.docVIP

系统发生足迹技术在巴西固氮螺菌基因组特征搜寻上的应用_计算机论文.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
系统发生足迹技术在巴西固氮螺菌基因组特征搜寻上的应用_计算机论文 系统发生足迹技术在巴西固氮螺菌基因组特征搜寻上的应用_计算机论文 摘 要 巴西固氮螺菌是重要的植物促生内生菌之一。为了研究其未知基因,在巴西固氮螺菌和与其同源的五个菌种之间进行系统发生足迹研究。由于单机任务执行的串行性,效率较低。研究发现,整个过程包含了大量重复的、没有数据依赖的操作,如文本信息的提取,DNA序列的比较等。因此,提出了局域网环境下基于客户机/服务器模式的多机并行实现的思路。在充分利用资源的同时,显著提高了效率。 关键词 巴西固氮螺菌;同源; 系统发生足迹; 客户/服务器模式; 并行 1 引言 1.1 巴西固氮螺菌 巴西固氮螺菌(Azospirillum brasilence)是重要的植物促生内生菌之一,其质体上的不同基因分别控制着其各种不同的特性。对巴西固氮螺菌的深入研究对我国农业的发展有着深远的影响。 在巴西固氮螺菌的sp7菌株里,发现了两个质体,分子量分别为115 MDa (p115) 和90 MDa (p90)。 实验表明:p115 质体会自发地从细菌细胞中消失,并且与原生型sp7比较,由p115的衍生物来代替p115没有造成任何表现型如细菌的运动性、化学向性等的差异,而对p90的替代却使得细菌不能正常生存。由此得出结论:细胞存活必须的基因信息在p90质体上。[1] 1.2 系统发生足迹技术 P90的基因序列已经被微生物与植物遗传中心(KULeuven, Belgium)破译,并且部分基因的位置和功能已经确认,如exoB和exoC控制着外聚多糖的合成。然而还有一些基因如nodP和nodQ,它们的功能还有待确定。本文应用系统发生足迹技术对p90 进行研究。 系统发生足迹是用来识别DNA序列中的调控因子(motif)的方法,它通过在多个同源基因的调控序列(基因间序列)中寻找保守区域来确定调控因子。系统发生足迹技术认为:由于环境选择的压力,基因上的功能因子比那些非功能序列进化的速率慢。因此,对于同源物种而言,那些保守区域将成为功能/调控因子的主要侯选者。[2] 1.3 局域网多机并行实现 随着网络技术的发展,多机并行技术应用日益广泛。并行是指多台计算机同时运行,与单机串行运行相比,并行能够显著的提高执行速度。本系统构建客户/服务器模式的局域网,即一台服务器,多台客户机。服务器安装应用程序和存储必要的数据供客户机使用,同时协调客户机之间的同步运行。客户机从服务器上下载文件并在服务器的支配下并行执行任务。 2 方法与设计 2.1 系统任务提出及方案论证 由于系统发生足迹是在同源基因的基因间序列中寻找调控因子,因此,首要的任务是寻找与p90同源的基因间序列。本系统中使用新月柄杆菌,根瘤菌, 深红红螺菌, 球形红杆菌和淡水菌五种细菌作为与巴西固氮螺菌p90基因比较的对象。由于都属于a-蛋白菌,可以在它们的基因中寻找同源基因,进而找到这些同源基因的基因间序列。 针对上述任务,本系统发生足迹研究共分为4大模块: 2.1.1 基因信息入库 由于存储在NCBI的基因信息是以文本文件的形式存放,为了便于计算机处理,需要将文本中的各项信息提取出来存入数据库表中。 并行性分析:基因信息入库是文本信息提取操作,信息量大,需要大量单一、重复的操作,必须借助计算机程序来高速、准确的完成。由于每次提取操作只针对一个文本文件,因此文本文件的信息提取操作之间没有任何数据依赖关系,可以将这些文件按照数量均分给多台计算机并行执行以提高信息的提取速率。 2.1.2 蛋白质比较 一般来说,如果两个蛋白质的序列相似,则其功能也相近。基因间序列对基因编码起着重要的调节作用。如果两个基因间序列调控的基因编码的蛋白质序列相似,即蛋白质的功能相近,则说明这两个编码基因序列有可能是同源关系,那么就可以将它们相应的基因间序列提取出来进行系统发生足迹研究。因此需要寻找基因编码的蛋白质序列,由于蛋白质序列在NCBI是以fasta 文件形式存储,需要将文件中的信息进行提取并存到数据库表中。 对所有的蛋白质序列进行BLAST比较,寻找序列的相似性,结果如图1: 图1. BLAST比较结果 为了排除偶然因素造成的序列间的相似性,用期望值E来衡量结果的显著性。E值越小,结果越显著。 并行性分析:fasta文本信息的提取与基因信息提取相似,可以并行实现;而序列间的BLAST比较只需要参与比较的蛋白质序列信息,并不依赖与别的蛋白质。因此,在保证所有的蛋白质之间都能比较的前提下,可以把序列分组,由客户机并行执行。 2.1.3 基因序列分组 根据BLAST计算出的相似度,用TribeMCL对蛋白质进行分组,序列相似的蛋白质将被归为一组。为了利用序列相似的传递性,将各蛋白

文档评论(0)

wyj199219 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档