- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Genscan算法介绍-中科院计算所生物信息学研究组
Genscan 介绍 刘 玮 2001.11.1 Genscan的用途 基因的识别 外显子 内含子 基因间区域 转录信号 翻译信号 剪接信号 等等…… 基因结构 基因识别的方法 利用同源比对.(blast) 基于基因中编码序列和非编码序列区域碱基的统计差异性. 根据真核基因的生物结构,建立整体的基因预测模型.(Genscan) Genscan Genscan程序是通过设计基因序列模型来得到真核生物的基因.其编码区使用五阶的马可夫模型,而不使用来自同源信息的模型,使得Genscan的结果不依靠于目前的蛋白库中的相似基因,从而提供了于同源基因识别不一样的方法. 基因序列结构模型 该模型本质是不完全的马可夫模型(semi Markov),Genscan中使用state duration HMM 来说明. 模型可以看成序列φ: 顺序的状态集 q={q1,q2,......,qn} 状态相对应的长度集(持续时间) d={d1,d2,......,dn}, 对每一个状态, 使用分别概率模型P 形成长度为L=∑di (I=1...n)的DNA序列 模型通过以下步骤形成的长度为L的序列: 1.由初始状态集π得到初始状态q1 2.状态q1相对应的长度d1是由长度分配集?Q给出 3.在q1,d1的条件下,应用同q1相对应的概率模型,形成长度为d1的序列片断s1 4.后续状态q2是根据q1由状态转换矩阵T(一阶马可夫)得到 这个过程一直重复直到长度达到或超过L。序列就是片断s的连接。 模型的四个主要元素: 初始概率向量π 状态转移概率矩阵T 长度分配集? 序列产生模型集P 模型的使用 由模型的四个参数,可求出长度为d,状态是q的序列片断为基因的概率(即是先得到一个基因的概率模型,之后给定一个序列,通过比较模型和序列的相似程度来预测基因.) 使用到了向前算法和Viterbi算法. 模型参数 初始概率和转移概率根据CG含量的不同,将训练集分成四类根据统计得到. 模型的片断的长度有以下几点 内含子和基因间的长度符合几何分布,根据CG的不同分别的由参数q来决定 5 UTR(从转录起始点到翻译起始点)长度为769 3 UTR (终止密码子到PloyA尾)长度为457 外显子长度l=3c+I(c为生成的完整密码子个数,I为相对应的内含子状态(0,1,2,))。 序列产生模型集P 编码区(外显子)模型 外显子使用3-periodic五阶马可夫模型.根据六聚体的结尾所处的密码子的位置使用不同的转移矩阵C1 C2 C3. 非编码区模型(F,T,N,Ik) 使用五阶的马可夫模型 信号模型 一些信号使用WMM(重量矩阵方法) 受体剪接位点中使用改进的WAM(重量队列模型) 供体剪接位点中使用MDD(最大相关分解) 转录和翻译信号 PolyA信号是6bp的WMM模型 翻译起始信号是12bp的WMM模型,其中开始的6bp是起始密码子. 启动子由于30%的真核生物没有TATA信号,模型中以0.7的概率使用TATA-containing启动子,0.3的概率使用TATA-less启动子. Genscan 的特点 1.根据CG组分的不同使用不同的参数。 2.可识别序列中的多个基因。 3.新的受体和供位点的统计学模型。 模型的局限 仅能处理相邻状态间的相互作用 仅处理蛋白质编码基因(不用于tRNA,rRNA) 翻译单元仅考虑了内含子(没有5`,3`不翻译的区域) 重叠转录单元没有考虑 一些调整元素没有考虑(增强子) 于可选择剪切有关的信号没有包含. 结束 * * *
您可能关注的文档
- 与密度函数f(x).ppt
- §2有关条件概率的三定理.ppt
- 求Y=X2的分布律.ppt
- 概率基础-统计之都.ppt
- §1.5条件概率、全概率公式和贝叶斯公式.ppt
- 概率教学设计.ppt
- 第一章概率论的基本概念§6.条件概率.ppt
- 第一章随机向量§1一元分布.ppt
- Probabilitiesincardgames.ppt
- 生日相同的概率七(上)《频率与概率》第3节(第2课时).ppt
- 京能清洁能源(0579.HK)首都燃气发电龙头,高股息清洁能源发电商-251009-国证国际.pdf
- 投资组合报告:2025年十月策略金股报告-251007-浙商证券.pdf
- 凌云光(688400)深度研究报告:AI赋能视觉制造,光学动捕及OCS未来潜力大-250930-华创证券.pdf
- 投资策略:10月策略观点与金股推荐-251009-国盛证券.pdf
- 审批视角看城投:城投债融资节奏依然偏紧-251002-国金证券.pdf
- 宏观动态跟踪报告:国庆假期海外市场的新变化-251009-平安证券.pdf
- 宏观深度报告:PPI+何时回正?-251007-财通证券.pdf
- 珂玛科技(301611)首次覆盖报告:氮化铝陶瓷加热器和静电卡盘,半导体沉积和刻蚀环节核心组件业务值得期待-251010-国元证券.pdf
- 流动性月报:资金或延续边际趋紧-250929-国金证券.pdf
- 商贸零售行业快评:代运营服务商板块系列之二,详解自有品牌发展路径,探析AI技术融合前景-251009-国信证券.pdf
文档评论(0)