模体发现问题中OOPS模型的EM算法.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
模体发现问题中OOPS模型的EM算法.doc

模体发现问题中OOPS模型的EM算法   摘 要 生物序列模体发现是从生物序列集合找出具有特定功能子序列的问题,它是生物信息学中最重要问题之一。OOPS模型是一种简单常用的模体发现的序列模型,它表示每条序列中有一个模体出现。本文提出了一种适用于OOPS序列模型的EM算法,用于查找每条序列中所出现的模体。实验结果表示,所提出的算法的时间性能和识别准确率均好于经典的Project算法。   关键词 模体发现 生物序列 EM算法   中图分类号:TP181 文献标识码:A DOI:10.16400/j.cnki.kjdkx.2015.08.010   EM Algorithm of OOPS Model in Motif Discovery Problem   HUANG Ying   (School of Information Engineering, Xian University, Xian, Shaanxi 710065)   Abstract Biological sequence motif discovery from biological sequence set to find out having a problem specific functional sub-sequence, it is one of the most important issues in bioinformatics. OOPS model series model is a simple common motif finding, which represents each sequence has a motif appears. This paper presents a suitable OOPS series model EM algorithm, for finding that appears in each sequence motif. The results indicated that the time performance of the algorithm and the recognition accuracy rate of the proposed algorithm is better than the classical Project.   Key words motif discovery; biological sequence; EM algorithm   1背景   EM(expectation-maximization)算法是Dempster, Laird和Rubin(DLR)三个人在1977年正式提出的。主要是用于在不完全数据的情况下计算最大似然估计。在EM算法正式提出以来,人们对EM算法的性质有更加深入的研究;并且在此基础上,提出了很多改进的算法,在数理统计,数据挖掘,机器学习以及模式识别等领域有广泛的应用。   生物序列模体(motif)发现问题是从一个从相关生物序列集合找出具有某种特定功能的子序列的问题,它是生物信息学中最重要问题之一,也是最基本问题之一。针对motif在每条序列中出现或不出现或者出现多次,有三种对应的模型,即:若每条序列中有且仅有一个motif出现,则被称为OOPS模型,这是最简单的模型;若每条序列中至多有一个motif出现,则被称为ZOOPS模型;若每条序列允许多个motif出现或者没有motif出现,则被称为TCM模型,这是最复杂的模型。   本文实现基于最简单的OOPS模型实现EM算法,来查找每条序列中所出现的motif。   2模体发现的EM算法   在最大化似然的问题中,给定被称为数据参数似然值的函数( ; ),或者就称为似然函数:   (?O ) = (?O ) = ( ; )   我们的目标就是找到使最大的 值,即    * = ( ; )   EM算法的核心思想就是根据已有的数据来递归估计似然函数。   所有的EM算法都由两个主要的步骤组成:   E-step   M-step   在E-step中,对于未知的潜在变量,使用当前参数的估计值和当前的观察。在M-step中,重新计算出来一个新的参数的估计值。在每次迭代中,似然值都会增加,因此该过程总会达到一个渐近最大值;但EM可能陷入一个局部最优。通过交替使用这两个步骤,EM算法逐步改进模型的参数,使参数和训练样本的似然概率逐渐增大,最后终止于一个极大点。   直观地理解EM算法,它也可被看作为一个逐次逼近算法:事先并不知道模型的参数,可以随机的选择一套参数或者事先粗略地给定某个初始参数,确定出对应于这组参数的最可能的状态,计算每个训练样本

文档评论(0)

lmother_lt + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档