网站大量收购独家精品文档,联系QQ:2885784924

生物信息学chapter_分析.ppt

  1. 1、本文档共56页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基因识别 2、真核基因识别问题 3、基因识别的主要方法 4、编码区域识别 5、构建基因模型 位点图(分层标注剪切位点) 6、用于基因识别的HMM模型 (1) 信号传感器模型 (2) 编码区模型 (3) 组合模型 7、基于剪切比对的基因识别方法 8、基因识别程序介绍 基因剪切位点 剪切给体(donor)位点- “gt” 接受体(acceptor)位点- “ag” 基因的可变剪切 gene A 基因可变剪切示意 构建基因模型方法 剪切位点形成外显子和内含子的边界 搜集候选外显子 → 候选基因 候选基因是一条非相交的外显子和内含子的链,表示为 (i0, e1, i1, …, en, in) 其中ij代表内含子(0?j?n) el代表外显子(1?l?n) i0和in并非真实的内含子,它们分别代表基因两侧的非编码序列 候选基因位于给定的DNA序列,并满足下列一致性条件: (1)所有外显子加起来的长度是3的整数倍; (2)在各个外显子内部(除最后一个外显子的最后一个密码子),没有终止编码; (3)第一个内含子-外显子边界(i0, e1)是翻译起始编码,而最后一个外显子-内含子边界(en, in)是终止编码。 另设两个特殊的顶点,即起点(source)和终点(sink)。 从起点到终点的任何一条路径代表一个可能的基因结构。 例如: 位点图上的路径 候选基因所对应的道路图中的路径 求最优路径 每一条弧附加一个权值 外显子、内含子度量 每个节点附加权值 剪切位点度量 综合评价 隐马尔柯夫模型HMM是一条状态不可见的马尔柯夫链,其当前状态的输出是可见的。 每个状态按照一定的概率分布随机地从字母表中取出字符并释放。 扩展的隐藏马尔柯夫模型(GHMMs ) 对HMM进一步抽象,产生更一般的马尔柯夫模型,以分析复杂的脊椎动物基因 。 将剪切位点、起始编码区域或者终止编码区域看成是DNA序列上的功能位点或者信号位点,用HMM来进行分析 内含子区域 外显子区域 保守位点 根据对比排列,形成具有19状态的HMM模型。 对前一节所介绍的HMM模型进行修改,可以处理双联核苷酸的问题,即将4种概率分布扩展为16种。 假设一段序列为ACTGTC…,则 P(ACTGTC…)=p1(A)?p2(C?A)?p3(T?C)?p4(G?T)?p5(T?G)?p6(C?T)… 其中p1是状态1对于4种核苷酸的概率,p2(x?y)状态2的条件概率。 由于密码子的长度为3,因此密码子模型的最后一个状态应该至少为2阶。 对于2阶的状态,具有64种概率分布,可根据已知编码区域进行统计计算而得到64种分布。例如: p(A?CA)=c(CAA)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)] p(C?CA)=c(CAC)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)] p(G?CA)=c(CAG)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)] p(T?CA)=c(CAT)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)] 其中,c(xyz)是密码子xyz的计数。 这样的模型可以检测无结束编码的区域,因为对应于三个结束编码TAA、TAG和TGA的p(A?TA)、p(G?TA)和p(A?TG)自动为0。 * * 第五节 基因识别 主讲人:孙 啸 制作人:刘志华 东南大学 吴健雄实验室 基因识别是生物信息学领域里的一个重要研究内容 基因识别问题,在近几年受到广泛的重视 当人类基因组研究进入一个系统测序阶段时,急需可靠自动的基因组序列翻译解释技术,以处理大量已测定的但未知功能或未经注释的DNA序列 原核基因识别 重点在于识别编码区域 非翻译区域(untranslated regions, UTR) 编码区域两端的DNA,有一部分被转录,但是不被翻译,这一部分称为非翻译区域 5’UTR---基因上游区域的非翻译区域 3’UTR---基因下游区域的非翻译区域 对于任何给定的核酸序列(单链DNA或mRNA),根据密码子的起始位置,可以按照三种方式进行解释。 例如,序列ATTCGATCGCAA 这三种阅读顺序称为阅读框(reading frames) CAA A ATT CGA TCG A TTC GAT CGC AA AT TCG ATC GCA (1) (3) (2) 一个开放阅读框(ORF,open reading frame)是一个没有终止编码的密码子序列。 原核基因识别任务的重点是识别开放阅读框,或者说识别长的编码区域。 基于基因密码子特性的识

文档评论(0)

奇缘之旅 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档