基于HMM的基因识别驳蘑行计算.docVIP

下载本文档

0
0
约2.97千字
约 6页
2017-08-19 发布于湖北
举报
版权申诉

基于HMM的基因识别驳蘑行计算.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于HMM的基因识别驳蘑行计算

基于HMM的基因识别并行计算摘要分析了传统的串行基因分析方法的局限性，阐述了基于隐马尔科夫模型的基因识别方法和原理，最后给出了基于隐马尔科夫模型的并行算法并进行了并行效果分析，指出了并行计算在生物信息学领域的广阔前景及重要意义。关键词基因识别； HMM；并行计算；生物信息学1 引言 20世纪90年代以来，伴随着各种基因组测序计划的展开和分子结构测定技术的突破，数以百计的生物学数据库如雨后春笋般迅速出现和成长。如何利用这些不断爆炸性增长的有关生物分子的原始数据，有效解决基因识别问题显得越来越迫切。最初的基因分析方法是进行简单的核苷酸统计，而后加上剪切保守位点的检测。以后采用了人工神经网络、隐马尔科夫模型（HMM）[1，2]等先进的信息处理和分析技术，提高基因识别的准确率。但由于生物信息数据量巨大，传统的串行算法往往无法处理或难以在满意的时间内得到结果。本文针对基因序列的识别，讨论隐马尔科夫模型分析算法的并行算法设计和并行效果分析。2 隐马尔科夫模型法隐马尔科夫模型[3]（Hidden Markov Models，HMM）是一种概率论模型，这种方法已经成功应用于多个领域，如语音识别、光学字符识别等。HMM在生物信息学领域中也有着重要的应用，如序列分析、基因识别等。目前，基因识别的HMM方法也大致可以分为两类，一类为按照内容搜索的方法，通过核苷酸和三联密码子等在编码区的分布规律来界定蛋白质的编码区；另一类为按照信号搜索的方法，通过编码区周围的信号界定蛋白质编码区。2.1 马尔科夫链考虑只取有限个或可数个状态的随机过程{Xn，n=0，1，2，…}，假设对一切状态i0，i1，…，in-1，i，j和一切n≥0，有P{Xn+1=j | Xn=i，Xn-1=in-1，…，X1=i1，X0=i0} = P{Xn+1=j | Xn=i}成立，则称此随机过程为离散状态马尔科夫链。简单的说，就是系统未来的状态仅依赖于当前状态。一个马尔科夫链的概率分布完全由它的初始分布P(X0)与转移矩阵P=(pij)决定。2.2 HMM基本原理隐马尔科夫模型HMM是由马尔科夫链发展扩充而来的一种随机模型。HMM可以被理解为一个双重随机过程，一个是不可观察的（隐含的）状态变化序列，另一个是由该不可观察的状态产生的可观察符号序列。隐马尔科夫模型形式描述如下：一个HMM模型是一个三元组M=(A，S，Q)，其中A是字母表，S是有限状态集合，每个状态可以释放字母表中的字符。Q为概率集合，包括两个部分：一是状态转换概率fkl，k，lS，表示从状态k转化到状态l的概率；二是字符释放概率，记为ek(b) (kS，bA)，表示在状态k下释放出字符b的概率。令路径Π=(π1，π2，…，πL )是模型M的一个相继状态序列，X=（x1，x2，…，xL）是一个字符序列，按下述方式定义状态转换概率和字符释放概率：fkl = p(πi = l|πi-1 = k)ek(b) = p(xi=b|πi= k) 对于给定的路径Π，可以按下面的公式计算出产生序列X的概率： P（X|Π）= fπ0，π1 eπi (xi)fπi，πi+1 这里，令π0为起始状态，πi+1为终止状态。在表示或分析HMM模型时，用方框表示各个状态，方框之间的连线表示状态转换。对于每个状态，详细地描述各个字符的释放概率，而对于状态之间的转换，也给出相应转换动作发生的概率，即状态转换概率。表示DNA序列的HMM如图1所示。对生物序列而言，HMM的字符就是20个字母的氨基酸或4个字母的核苷酸。编码蛋白质的原始DNA序列，在生物的进化过程中会受到自然环境和各种因素的影响，使翻译出的蛋白质序列[4]经历突变、遗失或引入外援序列等变化，最后按不同的进化路径分化，形成多种功能相近的蛋白质。因此，可以把这些蛋白质看作由一个基本蛋白质序列经过插入、删除或替换了某些氨基酸残基而形成。这个过程可以用HMM来表示。一个训练好的模型可以代表有共同特征的蛋白质序列。HMM用于分析蛋白质序列的原理是分析蛋白质产生不同序列的概率，对于与模型相符合的序列，能以较大的概率产生。图1 隐马尔科夫模型3 并行算法对于给定一个隐马尔科夫模型M=(A，S，Q)和一个字符序列X（即基因序列），在M中寻找产生该序列的最优路径Π*，该路径从起始状态出发，结束于终止状态，在路径中的每一个状态都选择释放一个字符，使P(X|Π*)最大。这是基因识别中常用的一个方法，这里我们设计采用并行算法来求解HMM的最优路径问题。给定一个字符序列X=（x1，x2，…，xL），以vk(i)代表序列前缀（x1，x2，…，xL）终止于k（kS，1≤i≤L）的最可能路径的概率。求解过程如下：（1）初始化 vbegin（0）=1k≠begin vk(0) = 0 （2）对于每