系统发育树构建中用EM算法进行参数估计.pdfVIP

系统发育树构建中用EM算法进行参数估计.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
应用概率统计 第二十六卷 ChineseJournalofAppliedProbability 第四期 2010年8月 and StatisticsVo1.26No.4Aug.2010 系统发育树构建中用EM算法进行参数估计 唐晓嗣 伍超标 (广州南华工商学院,广州,510507) (暨南大学数学系,广州,510632) 捅 姜 系统发育学研究物种之间的进化关系,其核苷酸替代模型通常假设序列进化没有数据的缺损和 删失,而现实中这个假设条件是很难满足的.针对这种事实,本文将运用EM算法对存在插入或缺失但 序列长度假设不变的观测序列构建系统发育树进行参数估计,为含缺损数据序列构建 良好的系统发育 树作铺垫.重点在于运用EM算法做Jukes.Cantor模型、Kimura模型下含缺损数据的DNA序列构建有 根树或无根树最佳分枝长度等的参数估计. 关键词: 系统发育树,EM算法,Jukes-Cantor模型,Kimura模型,参数估计. 学科 分类 号:O212.8. 系统发育分析主要有四个步骤:进行DNA序列的比对、建立核苷酸替代模型、建立 系统发育树 以及对发育树的评估.核苷酸替代的概率模型假设只是一种有用的初步近 似,如假设序列没有插入或缺失等,本文对这个假设条件进行了拓展,着重研究了含缺损 数据的DNA序列的进化情况,为建立 良好 的系统发育树作铺垫.构造了Jukes—Cantor模 型、Kimura模型下含缺损数据的DNA序列构建有根树的参数估计定理,并运用EM算法对 该定理进行了证明,并得出了几个无根树结构情况下的推论. §1. 系统发育树的基本元素 理论上,一个DNA序列在物种形成或基因复制时分裂为两个子序列,因此,系统发育 树一般是二叉树.考虑佗个类群的系统发育树,观测到的礼个DNA序列叫外部结点(即叶 子)记作8: (81,… ,8n);两序列间每一位点核苷酸期望替代数定义为两序列间的进化距 离即分枝长度 (或边),用d表示.拓扑结构T中所有分枝(或边)的集合用ET表示;ETn表示 连接一个外部结点和一个 内部结点的所有边的集合,ET1表示连接两个 内部结点的所有 边的集合.脱氧核糖核酸简称DNA由4种碱基组成:腺嘌呤A,鸟嘌呤G,胞嘧啶 ,胸腺嘧 啶 .记为D={,C,G,].,若每条序列有 个位点(核苷酸),则s ∈Dz,J:1,2,… ,佗, 且Vi∈D ,i=0,1,2,… ,n一2.核苷酸替代可能出现转换和颠换.转换指的是一个嘌 呤(腺嘌呤或鸟嘌呤)被另一个不同的嘌呤所替代,或一个嘧啶被另一不同嘧啶替代;其他的 核苷酸替代皆为颠换. . 考虑结点k上的序列为父代序Nv,结点h上的序列是它的一个子序列记为Vh,连接两 结点的分枝长度是d,则用 (d)表示进化距离d内结点k上的序列转化为结点h上的序列 的核苷酸替代概率. 本文2006年12月12日收到,2008年6月6日收到修改稿 应用概率统计 第二十六卷 §2. Jukes—Cantor模型$~Kimura模型 2.1 Jukes.Cantor模型 单参数Jukes—Cantor(1969)模型(参见文献[1])是最简单的核苷酸替代模型,该模型假 设所有位点的核苷酸替换相互独立;每一位点核苷酸单位时间内以概率OL演变为其他3种核 苷酸中的一种;核苷酸替代数服从均值为At~Poisson分布,两序列间每一位点的核苷酸期 望替代数d=2At;整个序列不断更新的过程是一个包含4种状态0、C、 £的MarkOv链. 定理 2.1 在Jukes—Cantor模型下,两序列问每一位点核苷酸替代概率是 ㈣

文档评论(0)

lizhencai0920 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6100124015000001

1亿VIP精品文档

相关文档