随机引物序列选择的快速算法.pdfVIP

下载本文档

37
0
约1.06万字
约 3页
2018-06-07 发布于河南
举报

随机引物序列选择的快速算法.pdf

随机引物序列选择的快速算法

计算机科学2004Vol.302.10(增刊) 随机引物序列选择的快速算法 AFastAlgorithmfortheSelectionofRandomPrimer 张洪福朱大铭 (山东大学计算机科学与技术学院济南250061) AbstractTheselectionofrandomprimersisanimportantresearchtopicinbiology.Generallyrandomprimers， whoselengthisnormally10or11,areselectedfromoligonucleotideswiththehigherfrequencyofoccurrencein codinggenomeE3.Inthispaper,wepresentastatisticalalgorithmbasedontheutilizationofHashtablewhichcan solvetheproblemveryefficiently.ByvirtueofestablishingappropriatedatastructuresandHashfunctions,wecan computethefrequencyofoccurrenceofprimeringenomeveryquickly,whichprovidesapowerfulapparatusforthe selectionofprimeringenomics.Forinstance,usingtheprogramwhichimplementthealgorithmwithVC++,we cancomputethe10.4Mbpgenomeofmyxobacter(prokaryoticorganism)in35.28sifthelengthoftheprimeris10, whiletheprogramimplementingtheoldalgorithmscost18.94h. Keywords Genome,Primer,Base,Hash 中频率最高的寡核昔酸中选出。本文着重讨论在随 1 引言机引物序列设计中如何快速计算一定长度的寡核昔设基因组序列S=(TT2,-,TO，其中T，为酸的频率。主要通过建立合适的数据结构和Hash DNA序列，是由A,G,C,T四种字符组成的序列，函数来减少子串和主串之间的比较次数，只扫描一这里称为主串。任意两个主串均不相同，T;笋T;,i笋遍S，即可求出每一出现子串的引物次数，从而大大 1。记S的总长度为L。所谓引物是指与待扩增核酸减少了算法的执行时间。经过对粘球菌(原核生物) 片段两端互补的寡核昔酸，即其也是由四种碱基组的多组基因组序列的测试，本算法执行速度快，效率成的序列。在引物设计中，随机引物序列的出现次数高。是指引物在多少个基因中出现，这里定义为引物次本文第2部分介绍了一般性的方法，并讨论了其数，用P来表示。P*意为u在‘S中的P个‘主串中出优缺点。第3部分提出了一快速算法，并对其进行了现，如图1所示，u在S中的引物次数为3, 分析。第4部分对算法进行了测试。 2 一般方法千对于长度为n的碱基序列，共有4”种可能形 S 之式，即4”种可能子串。最直接的方法是对每一可能 ! | 子串与所有主串分别进行比较，求出它的引物次数，毛一曰. . . . . .一 L

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

随机引物序列选择的快速算法.pdfVIP