SPDP基因限制性图谱重构结介绍.doc

DNA限制性图谱绘制 论文摘要 本文首先证明了该问题不存在多项式算法,最坏情况下其时间复杂度不低于指数。 进而在穷举法基础上提出了一种优化算法,该算法通过分析所有的DNA片段数据,建立了b-b表与b-c表,利用两个表的逻辑、几何的关系对穷举二叉树进行预测,对穷举过程进行强限制,极大优化穷举法。文中并应用计算机实践报告与复杂度理论分析对所提出的算法进行了深入的测试与评估,对于稀疏的数据该算法时间平均复杂度是多项式。 在解决了一般SPDP问题后,针对带误差的SPDP问题,通过对误差及概率的讨论给出了一解法,解决了含有误差的SPDP问题。 在原有SPDP问题上,考虑实际需要,对SPDP问题进行分析,提出了改进方法,并对于一些特殊情况进行了讨论。 关键词: DNA限制性图谱 SPDP 算法 PDP部分消化法 利用限制性位点酶可以将DNA分子中的限制性位点切开,假如一个DNA分子有n个限制性位点,利用不同的限制性位点酶,通过大量实验得到任两个限制性位点(包括两个端点)的长度,共个值,把利用这些数据作为第一组数据, PDP方法就是利用这组数据重新构建DNA限制性图谱。 例如: 2,3,4,5,2,5,9,14,16,7,12,14,9,11,7 图1 图1中A,B是DNA分子的两个端点。 a,b,c和d是限制性位点。 通过实验可以得到 2,3,4,5,2,5,9,14,16,7,12,14,9,11,7 . 再通过来求,对应于上图的 0,2,5,9,14,16 是一种解。 SPDP简化部分消化法 鉴于目前的实验技术所限,PDP的方法实行起来有相当的难度,所以在PDP的基础上得到了SPDP方法。SPDP方法不需要得到任两个限制性位点的距离,只要的测量任一个位点到两个端点的距离,作为第一组数据,以每段DNA片段的长度作为第二组数据,重构DNA限制性图谱。 图2中(a)就是我们希望重构的DNA图谱,(b)中的前4对图谱为第一组数据,它的每对的长度和都是16,剩下的为第二组数据,含有5个片段的长度,是由(a)每段都切开以后得到的。 SPDP方法就是要利用 b 中的数据通过计算重构图谱 a 的结构。 DNA限制性图谱绘制在目前的技术条件下,SPDP是一个可行的办法,但是SPDP的实验数据只有不完整的片段长度,需要对这些片段长度进行数学处理才能得到原始的DNA限制性图谱,本文第3部分中面对生物学对SPDP问题的求解需要,给出了一个完整的SPDP问题的解法。 1 建立数学模型以及SPDP问题算法 利用SPDP方法重构DNA的顺序时,已知的数据有两组,若一段DNA的位点总数为n,则第一组数据是通过对位点进行一次切割而得到的2n组数据,第二组数据是切开所有的位点得到的n+1个片段的数据。 从第一组数据入手,进行一定的组合,而利用第二组数据对第一组数据的组合进行检验。这里,我们首先要对第一组数据进行一定的处理。在第一组数据中,DNA都是被切成两段,当DNA总长度L知道的时候,其实只要知道每对b中的一个值就得到了全部的信息。现在我们将每对b中较小的一个挑出来(若与相等任取一个就可以)。这样我们就得到了n个数据,再对这n个数据进行升序排列,得到一个不严格递增的b序列,在这里不妨记作,它们满足,它包含了第一组数据的所有的信息。 为了方便计算,我们不妨先对基因图谱的起点和终点做一个规定,假设从起点算起,第一个位点到起点的距离小于或者等于从终点算起第一个位点到终点的距离,即。 对于重新组织后的第一组数据,其含义为:对于某一个,它表示离这段基因起点或者终点距离的位置有一个位点。则对于第二种穷举方法也就由此而得出,对于每个它有两种状态,一种是靠近起点(不妨用“0”表示),另一种是靠近终点(不妨用“1”来表示)。而当全部的的状态确定后,DNA的顺序也就确定了,但此时要对这个顺序的合理性进行检验,即检验这个顺序是否符合第二组数据c的要求。具体措施如下: 将“0”状态的全部挑出来按照升序排列。再将“1”状态的全部挑出来按照升序排列。记第二组数据c组成的集合为。然后检验是否满足以下条件: (前半段) …… (后半段) …… 当全部检验条件符合的时候,这组组合即为合理的顺序,从DNA的起点算起,在前半段的基因中,第i段长度为 其中 ,而对于后半段则有相同的处理,其示意图如图5表示。流程图如图4表示。这里值得说明一下的就是对与这个循环的结束条件,因为对于基因的排序问题,必须要求出所有的可能解,因此对于这个循环就必须要把所有的可能组合全部进行一遍以后才可以停止,即需要循环次。 分析这个模型以及它的穷举方法可以容易的发现,对b进行组合时的复杂度为,而每次判定组合是否是合理的组合还需要利用查找函数,复杂度为。所以总的复杂程度在以上。因此我们可以看到,这两组初

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档