Blast工具的介绍和并行优化.pdfVIP

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Blast工具的介绍和并行优化.pdf

生物秀—专心做生物【】 易生物—实验室问题解决伙伴【】 Blast 工具的介绍和并行优化 摘要 随着基因组计划的实施,分子生物信息迅速的增长。以核酸序列数据库为代表的分子生物信息数据正以 指数增加,而对于这些实验数据在计算机上的存储检索却远远跟不上这种发展。因此我们需要对原来的生 物学数据处理工具进行研究和改进。本文介绍了当前最为流行的核酸序列数据库检索程序 Blast,分析 了制约Blast 性能的原因,最后实现了对串行Blast 进行并行化,通 在曙光2000 上的测试,证实了这种 优化工作大大改进Blast 的检索性能。 关键字:分子生物信息处理,基因序列数据库,基因序列数据库检索工具, 模式匹配算法,并行程序设计 1. NCBI 和 Blast 工具 NCBI (National Centre for Biotechnology Information ),成立于1988 年,其主要目标是“生成生物学,生物 化学,生物基因学的信息自动化系统,生成分析、解释和处理分子生物学数据的先进工具”。Blast 是NCBI 研制的一个生物基因数据库系统,该系统对于生物基因序列数据在计算机中的表达和处理作了许多的研 究,提供了一个快速的基于碱基数据的搜索引擎。由于Blast 功能强大,检索速度快,所以Blast 工具流行 于世界上几乎所有的生物信息中心。 Blast 作为一个快速的基因数据库检索工具,提供如下检索功能: 功能名称 功能 Blastn 用核酸序列授索核酸序列数据库 Blastp 用蛋白质序列授索蛋白质序列数据库 Blastx 用核酸翻译的蛋白质序列授索蛋白质序列数据库 用蛋白质序列授索核酸翻译的蛋白质序列数据库 Tblastx 用核酸翻译的蛋白质序列授索核酸翻译的蛋白质序 列数据库 表- 1 Blast 提供的检索功能 Blast 提供两种类型的数据库,即核酸序列数据库和蛋白质序列数据库,这两种数据库的结构一样,所用的 数据检索方法也一样,所不同的是核酸数据库和蛋白质数据库的序列数据编码单位不一样。 2. 生物基因序列数据和Blast 中的数据结构 2.1. 生物基因序列数据 生物学中最重要的两种物质有:DNA 和蛋白质。众所周知,DNA 是一种由碱基按一定规则排列而成的 双链结构生物大分子。这种碱基排列顺序就构成了生物的遗传信息。蛋白质是由DNA 根据链结构上的某 些功能碱基序列复制而成的具有特殊功能的生物大分子。生物基因包括DNA 链上的碱基及其排列顺序。 虽然碱基的数目只有四种Adenine(A) 、Cytosine(C)、Guanine(G)、Thymine(T) ,而它们在DNA 上做各种有 序的排列形成了生物的多样性。所以对这种碱基序列进行测序、编码和研究是生物学研究最重要的工作。 生物基因序列数据就是对于某一生物基因采用某种编码方式编码产生的数据。 2.2. Blast 中的数据结构 Blast 使用ASN 数据描述语言定义了一种基因序列数据模型。随着Blast 的广泛流行,这种基因序列数据 模型也成为该行业的标准。数据结构Bioseq (Biological Sequence ),就是Blast 中对基因序列数据的定义。 Bioseq 的定义如下: Bioseq::= SEQUENCE { id SET OF Seq_id, descr Seq-descr OPTIONAL, inst Seq-inst, annot SET OF Seq-annot OPTIONAL 1 生物秀论坛——学术交流、资源共享、互助社区 /bbs 生物秀—专心做生物【】 易生物—实验室问题解决伙伴【】 Bioseq 定义为如下四个元素

文档评论(0)

zhoujiahao + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档