随机引物序列选择的快速算法.pdfVIP

  • 37
  • 0
  • 约1.06万字
  • 约 3页
  • 2018-06-07 发布于河南
  • 举报
随机引物序列选择的快速算法

计算机科学2004Vol.302.10(增刊) 随机引物序列选择的快速算法 AFastAlgorithmfortheSelectionofRandomPrimer 张洪福 朱大铭 (山东大学计算机科学与技术学院 济南250061) AbstractTheselectionofrandomprimersisanimportantresearchtopicinbiology.Generallyrandomprimers, whoselengthisnormally10or11,areselectedfromoligonucleotideswiththehigherfrequencyofoccurrencein codinggenomeE3.Inthispaper,wepresentastatisticalalgorithmbasedontheutilizationofHashtablewhichcan solvetheproblemveryefficiently.ByvirtueofestablishingappropriatedatastructuresandHashfunctions,wecan computethefrequencyofoccurrenceofprimeringenomeveryquickly,whichprovidesapowerfulapparatusforthe selectionofprimeringenomics.Forinstance,usingtheprogramwhichimplementthealgorithmwithVC++,we cancomputethe10.4Mbpgenomeofmyxobacter(prokaryoticorganism)in35.28sifthelengthoftheprimeris10, whiletheprogramimplementingtheoldalgorithmscost18.94h. Keywords Genome,Primer,Base,Hash 中频率最高的寡核昔酸中选出。本文着重讨论在随 1 引言 机引物序列设计中如何快速计算一定长度的寡核昔 设基因组序列S=(TT2,-,TO,其中T,为 酸的频率。主要通过建立合适的数据结构和Hash DNA序列,是由A,G,C,T四种字符组成的序列, 函数来减少子串和主串之间的比较次数,只扫描一 这里称为主串。任意两个主串均不相同,T;笋T;,i笋 遍S,即可求出每一出现子串的引物次数,从而大大 1。记S的总长度为L。所谓引物是指与待扩增核酸 减少了算法的执行时间。经过对粘球菌(原核生物) 片段两端互补的寡核昔酸,即其也是由四种碱基组 的多组基因组序列的测试,本算法执行速度快,效率 成的序列。在引物设计中,随机引物序列的出现次数 高。 是指引物在多少个基因中出现,这里定义为引物次 本文第2部分介绍了一般性的方法,并讨论了其 数,用P来表示。P*意为u在‘S中的P个‘主串中出 优缺点。第3部分提出了一快速算法,并对其进行了 现,如图1所示,u在S中的引物次数为3, 分析。第4部分对算法进行了测试。 2 一般方法 千 对于长度为n的碱基序列,共有4”种可能形 S 之 式,即4”种可能子串。最直接的方法是对每一可能 ! | 子串与所有主串分别进行比较,求出它的引物次数, 毛 一 曰. . . . . .一 L

文档评论(0)

1亿VIP精品文档

相关文档