Genscan 算法介绍 - 中科院计算所生物信息课题组.PPT

下载文档 降价啦

77
0
约1.56千字
约 17页
2017-06-27 发布于天津
举报
版权申诉
保障服务

Genscan 算法介绍 - 中科院计算所生物信息课题组.PPT

1、本文档共17页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Genscan 算法介绍 - 中科院计算所生物信息课题组

Genscan 介绍刘玮 2001.11.1 Genscan的用途基因的识别外显子内含子基因间区域转录信号翻译信号剪接信号等等…… 基因结构基因识别的方法利用同源比对.(blast) 基于基因中编码序列和非编码序列区域碱基的统计差异性. 根据真核基因的生物结构，建立整体的基因预测模型.(Genscan) Genscan Genscan程序是通过设计基因序列模型来得到真核生物的基因.其编码区使用五阶的马可夫模型,而不使用来自同源信息的模型,使得Genscan的结果不依靠于目前的蛋白库中的相似基因,从而提供了于同源基因识别不一样的方法. 基因序列结构模型该模型本质是不完全的马可夫模型(semi Markov),Genscan中使用state duration HMM 来说明. 模型可以看成序列φ: 顺序的状态集 q＝{q1,q2,......,qn} 状态相对应的长度集(持续时间) d＝{d1,d2,......,dn}, 对每一个状态, 使用分别概率模型P 形成长度为L＝∑di (I=1...n)的DNA序列模型通过以下步骤形成的长度为L的序列： 1.由初始状态集π得到初始状态q1 2.状态q1相对应的长度d1是由长度分配集?Q给出 3.在q1,d1的条件下,应用同q1相对应的概率模型,形成长度为d1的序列片断s1 4.后续状态q2是根据q1由状态转换矩阵T(一阶马可夫)得到这个过程一直重复直到长度达到或超过L。序列就是片断s的连接。模型的四个主要元素：初始概率向量π 状态转移概率矩阵T 长度分配集? 序列产生模型集P 模型的使用由模型的四个参数,可求出长度为d,状态是q的序列片断为基因的概率(即是先得到一个基因的概率模型,之后给定一个序列,通过比较模型和序列的相似程度来预测基因.) 使用到了向前算法和Viterbi算法. 模型参数初始概率和转移概率根据CG含量的不同,将训练集分成四类根据统计得到. 模型的片断的长度有以下几点内含子和基因间的长度符合几何分布,根据CG的不同分别的由参数q来决定 5 UTR（从转录起始点到翻译起始点）长度为769 3 UTR （终止密码子到PloyA尾）长度为457 外显子长度l＝3c＋I（c为生成的完整密码子个数，I为相对应的内含子状态（0，1，2，））。序列产生模型集P 编码区(外显子)模型外显子使用3-periodic五阶马可夫模型.根据六聚体的结尾所处的密码子的位置使用不同的转移矩阵C1 C2 C3. 非编码区模型(F,T,N,Ik) 使用五阶的马可夫模型信号模型一些信号使用WMM(重量矩阵方法) 受体剪接位点中使用改进的WAM(重量队列模型) 供体剪接位点中使用MDD(最大相关分解) 转录和翻译信号 PolyA信号是6bp的WMM模型翻译起始信号是12bp的WMM模型,其中开始的6bp是起始密码子. 启动子由于30%的真核生物没有TATA信号,模型中以0.7的概率使用TATA-containing启动子,0.3的概率使用TATA-less启动子. Genscan 的特点 1.根据CG组分的不同使用不同的参数。 2.可识别序列中的多个基因。 3.新的受体和供位点的统计学模型。模型的局限仅能处理相邻状态间的相互作用仅处理蛋白质编码基因(不用于tRNA,rRNA) 翻译单元仅考虑了内含子(没有5`,3`不翻译的区域) 重叠转录单元没有考虑一些调整元素没有考虑(增强子) 于可选择剪切有关的信号没有包含. 结束 * * *