- 22
- 0
- 约 6页
- 2017-02-08 发布于重庆
- 举报
用MCEM算法估计多序列有根树最优分支长度
用MCEM算法估计多序列有根树最优分支长度
摘要 系统发育树是通过对生物序列的研究来推测物种的进化,其核苷酸替代模型通常假设序列进化为完全数据,但现实中很难满足此假设,针对事实,本文运用MCEM加速算法对序列长度假设不变,但存在缺失情形下做出了Jukes-Cantor模型下含缺损数据的DNA序列构建有根树最佳分支长度的参数估计,并说明了MCEM加速算法比EM算法更有效。
关键词:系统发育树,MCEM加速算法,Jukes-Cantor模型,参数估计.
Estimated using the MCEM algorithm sequence with the optimal length of branch root tree
(1. Qinghai University,Xining 810016,china;2. Qinghai Normol University,Xining 810008,china)
Abstract: Phylogenetic tree is based on the research of the biological sequence to estimate the evolution of species . The nucleotide substitution model usually assumes that the sequence evolution as data completely, But in reality it is difficult to satisfy this assumption, In view of the fact that, In this paper, using the MCEM accelerated algorithm to assume the same sequence length, But there is missing case made Jukes - Cantor model containing the DNA sequence of defect data to build a root tree branch length of parameter estimation, Indicating the MCEM accelerated algorithm is more effective than the EM algorithm. Key words: Phylogenetic tree, MCEM accelerated algorithm, Jukes-Cantor model, parameter estimation.
0 引言
系统发育树是用类似树状分支的图来表示各种生物之间的亲缘关系,通过对生物序列的研究来推测物种的进化历史。系统发育分析主要有四个步骤:进行DNA序列的对比、建立核苷酸替代模型、建立系统发育树、对发育树的评估。理论上,一个DNA序列在物种形成或基因复制时分裂为两个子序列,从数学观点看,系统发育树是一颗树叶有标签的有根二叉树,根表示祖先序列。考虑个类群的系统发育树,观测到的个DNA序列叫外部结点(即树叶)记作;两序列间每一位点核苷酸期望替代数定义为两序列间的进化距离即分支长度(或边),用表示。拓扑结构中所有边的集合用表示;表示连接一个外部结点和一个内部结点的所有边的集合,表示连接两个内部结点的所有边的集合。系统发育树主要是它的拓扑结构和分支长度。分支长度表示突变的事件,拓扑表示树的分支模式,有个叶子可生成有根树的数目是[1],文献[2]中给出了Jukes-Cantor模型,文献[3]中利用EM算法给出了含缺损数据的DNA序列的最佳分支长度参数估计。但EM算法的收敛速度是线性的,由被缺损信息的倒数所控制。这样,当缺损数据的比例很高时,收敛速率就非常缓慢。而MCEM加速算法在E步中使用Monte Carlo算法时所缺失数据的信息,将会由N-R步算法修正时被补偿回来,文献[4] 中给出了MCEM 加速算法在恒加应力下情形下混合指数分布定数截尾的参数估计。本文利用MCEM 加速算法,引用文献[3] 中的假设,构造了Jukes-Cantor模型下含缺损数据的DNA序列构建有根树的最佳分支长度参数估计定理,并进行证明,得出结论:MCEM加速算法比EM算法更有效,收敛速度更快,精度也更高。
1 Jukes-Cantor模型
Jukes-Cantor模型假设所有位点的核苷酸替换相互独立;每一位点核苷酸单位时间内以概率演变为其它三种核苷酸中的一种;核苷酸替代数服从均值为的Poisson分布,两序列间每一位点的核苷酸期望替代数;整个序列不断更新的过程是一个包含4种状
原创力文档

文档评论(0)