- 1、本文档共17页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Genscan 算法介绍 - 中科院计算所生物信息课题组
Genscan 介绍 刘 玮 2001.11.1 Genscan的用途 基因的识别 外显子 内含子 基因间区域 转录信号 翻译信号 剪接信号 等等…… 基因结构 基因识别的方法 利用同源比对.(blast) 基于基因中编码序列和非编码序列区域碱基的统计差异性. 根据真核基因的生物结构,建立整体的基因预测模型.(Genscan) Genscan Genscan程序是通过设计基因序列模型来得到真核生物的基因.其编码区使用五阶的马可夫模型,而不使用来自同源信息的模型,使得Genscan的结果不依靠于目前的蛋白库中的相似基因,从而提供了于同源基因识别不一样的方法. 基因序列结构模型 该模型本质是不完全的马可夫模型(semi Markov),Genscan中使用state duration HMM 来说明. 模型可以看成序列φ: 顺序的状态集 q={q1,q2,......,qn} 状态相对应的长度集(持续时间) d={d1,d2,......,dn}, 对每一个状态, 使用分别概率模型P 形成长度为L=∑di (I=1...n)的DNA序列 模型通过以下步骤形成的长度为L的序列: 1.由初始状态集π得到初始状态q1 2.状态q1相对应的长度d1是由长度分配集?Q给出 3.在q1,d1的条件下,应用同q1相对应的概率模型,形成长度为d1的序列片断s1 4.后续状态q2是根据q1由状态转换矩阵T(一阶马可夫)得到 这个过程一直重复直到长度达到或超过L。序列就是片断s的连接。 模型的四个主要元素: 初始概率向量π 状态转移概率矩阵T 长度分配集? 序列产生模型集P 模型的使用 由模型的四个参数,可求出长度为d,状态是q的序列片断为基因的概率(即是先得到一个基因的概率模型,之后给定一个序列,通过比较模型和序列的相似程度来预测基因.) 使用到了向前算法和Viterbi算法. 模型参数 初始概率和转移概率根据CG含量的不同,将训练集分成四类根据统计得到. 模型的片断的长度有以下几点 内含子和基因间的长度符合几何分布,根据CG的不同分别的由参数q来决定 5 UTR(从转录起始点到翻译起始点)长度为769 3 UTR (终止密码子到PloyA尾)长度为457 外显子长度l=3c+I(c为生成的完整密码子个数,I为相对应的内含子状态(0,1,2,))。 序列产生模型集P 编码区(外显子)模型 外显子使用3-periodic五阶马可夫模型.根据六聚体的结尾所处的密码子的位置使用不同的转移矩阵C1 C2 C3. 非编码区模型(F,T,N,Ik) 使用五阶的马可夫模型 信号模型 一些信号使用WMM(重量矩阵方法) 受体剪接位点中使用改进的WAM(重量队列模型) 供体剪接位点中使用MDD(最大相关分解) 转录和翻译信号 PolyA信号是6bp的WMM模型 翻译起始信号是12bp的WMM模型,其中开始的6bp是起始密码子. 启动子由于30%的真核生物没有TATA信号,模型中以0.7的概率使用TATA-containing启动子,0.3的概率使用TATA-less启动子. Genscan 的特点 1.根据CG组分的不同使用不同的参数。 2.可识别序列中的多个基因。 3.新的受体和供位点的统计学模型。 模型的局限 仅能处理相邻状态间的相互作用 仅处理蛋白质编码基因(不用于tRNA,rRNA) 翻译单元仅考虑了内含子(没有5`,3`不翻译的区域) 重叠转录单元没有考虑 一些调整元素没有考虑(增强子) 于可选择剪切有关的信号没有包含. 结束 * * *
文档评论(0)