- 37
- 0
- 约1.06万字
- 约 3页
- 2018-06-07 发布于河南
- 举报
随机引物序列选择的快速算法
计算机科学2004Vol.302.10(增刊)
随机引物序列选择的快速算法
AFastAlgorithmfortheSelectionofRandomPrimer
张洪福 朱大铭
(山东大学计算机科学与技术学院 济南250061)
AbstractTheselectionofrandomprimersisanimportantresearchtopicinbiology.Generallyrandomprimers,
whoselengthisnormally10or11,areselectedfromoligonucleotideswiththehigherfrequencyofoccurrencein
codinggenomeE3.Inthispaper,wepresentastatisticalalgorithmbasedontheutilizationofHashtablewhichcan
solvetheproblemveryefficiently.ByvirtueofestablishingappropriatedatastructuresandHashfunctions,wecan
computethefrequencyofoccurrenceofprimeringenomeveryquickly,whichprovidesapowerfulapparatusforthe
selectionofprimeringenomics.Forinstance,usingtheprogramwhichimplementthealgorithmwithVC++,we
cancomputethe10.4Mbpgenomeofmyxobacter(prokaryoticorganism)in35.28sifthelengthoftheprimeris10,
whiletheprogramimplementingtheoldalgorithmscost18.94h.
Keywords Genome,Primer,Base,Hash
中频率最高的寡核昔酸中选出。本文着重讨论在随
1 引言
机引物序列设计中如何快速计算一定长度的寡核昔
设基因组序列S=(TT2,-,TO,其中T,为 酸的频率。主要通过建立合适的数据结构和Hash
DNA序列,是由A,G,C,T四种字符组成的序列, 函数来减少子串和主串之间的比较次数,只扫描一
这里称为主串。任意两个主串均不相同,T;笋T;,i笋 遍S,即可求出每一出现子串的引物次数,从而大大
1。记S的总长度为L。所谓引物是指与待扩增核酸 减少了算法的执行时间。经过对粘球菌(原核生物)
片段两端互补的寡核昔酸,即其也是由四种碱基组 的多组基因组序列的测试,本算法执行速度快,效率
成的序列。在引物设计中,随机引物序列的出现次数 高。
是指引物在多少个基因中出现,这里定义为引物次 本文第2部分介绍了一般性的方法,并讨论了其
数,用P来表示。P*意为u在‘S中的P个‘主串中出 优缺点。第3部分提出了一快速算法,并对其进行了
现,如图1所示,u在S中的引物次数为3, 分析。第4部分对算法进行了测试。
2 一般方法
千
对于长度为n的碱基序列,共有4”种可能形
S 之 式,即4”种可能子串。最直接的方法是对每一可能
!
|
子串与所有主串分别进行比较,求出它的引物次数,
毛 一 曰. . . . . .一
L
原创力文档

文档评论(0)