- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
应用概率统计 第二十六卷 ChineseJournalofAppliedProbability
第四期 2010年8月 and StatisticsVo1.26No.4Aug.2010
系统发育树构建中用EM算法进行参数估计
唐晓嗣 伍超标
(广州南华工商学院,广州,510507) (暨南大学数学系,广州,510632)
捅 姜
系统发育学研究物种之间的进化关系,其核苷酸替代模型通常假设序列进化没有数据的缺损和
删失,而现实中这个假设条件是很难满足的.针对这种事实,本文将运用EM算法对存在插入或缺失但
序列长度假设不变的观测序列构建系统发育树进行参数估计,为含缺损数据序列构建 良好的系统发育
树作铺垫.重点在于运用EM算法做Jukes.Cantor模型、Kimura模型下含缺损数据的DNA序列构建有
根树或无根树最佳分枝长度等的参数估计.
关键词: 系统发育树,EM算法,Jukes-Cantor模型,Kimura模型,参数估计.
学科 分类 号:O212.8.
系统发育分析主要有四个步骤:进行DNA序列的比对、建立核苷酸替代模型、建立
系统发育树 以及对发育树的评估.核苷酸替代的概率模型假设只是一种有用的初步近
似,如假设序列没有插入或缺失等,本文对这个假设条件进行了拓展,着重研究了含缺损
数据的DNA序列的进化情况,为建立 良好 的系统发育树作铺垫.构造了Jukes—Cantor模
型、Kimura模型下含缺损数据的DNA序列构建有根树的参数估计定理,并运用EM算法对
该定理进行了证明,并得出了几个无根树结构情况下的推论.
§1. 系统发育树的基本元素
理论上,一个DNA序列在物种形成或基因复制时分裂为两个子序列,因此,系统发育
树一般是二叉树.考虑佗个类群的系统发育树,观测到的礼个DNA序列叫外部结点(即叶
子)记作8: (81,… ,8n);两序列间每一位点核苷酸期望替代数定义为两序列间的进化距
离即分枝长度 (或边),用d表示.拓扑结构T中所有分枝(或边)的集合用ET表示;ETn表示
连接一个外部结点和一个 内部结点的所有边的集合,ET1表示连接两个 内部结点的所有
边的集合.脱氧核糖核酸简称DNA由4种碱基组成:腺嘌呤A,鸟嘌呤G,胞嘧啶 ,胸腺嘧
啶 .记为D={,C,G,].,若每条序列有 个位点(核苷酸),则s ∈Dz,J:1,2,… ,佗,
且Vi∈D ,i=0,1,2,… ,n一2.核苷酸替代可能出现转换和颠换.转换指的是一个嘌
呤(腺嘌呤或鸟嘌呤)被另一个不同的嘌呤所替代,或一个嘧啶被另一不同嘧啶替代;其他的
核苷酸替代皆为颠换. .
考虑结点k上的序列为父代序Nv,结点h上的序列是它的一个子序列记为Vh,连接两
结点的分枝长度是d,则用 (d)表示进化距离d内结点k上的序列转化为结点h上的序列
的核苷酸替代概率.
本文2006年12月12日收到,2008年6月6日收到修改稿
应用概率统计 第二十六卷
§2. Jukes—Cantor模型$~Kimura模型
2.1 Jukes.Cantor模型
单参数Jukes—Cantor(1969)模型(参见文献[1])是最简单的核苷酸替代模型,该模型假
设所有位点的核苷酸替换相互独立;每一位点核苷酸单位时间内以概率OL演变为其他3种核
苷酸中的一种;核苷酸替代数服从均值为At~Poisson分布,两序列间每一位点的核苷酸期
望替代数d=2At;整个序列不断更新的过程是一个包含4种状态0、C、 £的MarkOv链.
定理 2.1 在Jukes—Cantor模型下,两序列问每一位点核苷酸替代概率是
㈣
文档评论(0)