基因识别讲义.ppt

  1. 1、本文档共56页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基因剪切位点 剪切给体(donor)位点- “gt” 接受体(acceptor)位点- “ag” 基因的可变剪切 gene A 基因可变剪切示意 构建基因模型方法 剪切位点形成外显子和内含子的边界 搜集候选外显子 → 候选基因 候选基因是一条非相交的外显子和内含子的链,表示为 (i0, e1, i1, …, en, in) 其中ij代表内含子(0?j?n) el代表外显子(1?l?n) i0和in并非真实的内含子,它们分别代表基因两侧的非编码序列 候选基因位于给定的DNA序列,并满足下列一致性条件: (1)所有外显子加起来的长度是3的整数倍; (2)在各个外显子内部(除最后一个外显子的最后一个密码子),没有终止编码; (3)第一个内含子-外显子边界(i0, e1)是翻译起始编码,而最后一个外显子-内含子边界(en, in)是终止编码。 位点图(分层标注剪切位点) 另设两个特殊的顶点,即起点(source)和终点(sink)。 从起点到终点的任何一条路径代表一个可能的基因结构。 例如: 位点图上的路径 候选基因所对应的道路图中的路径 求最优路径 每一条弧附加一个权值 外显子、内含子度量 每个节点附加权值 剪切位点度量 综合评价 6、用于基因识别的HMM模型 隐马尔柯夫模型HMM是一条状态不可见的马尔柯夫链,其当前状态的输出是可见的。 每个状态按照一定的概率分布随机地从字母表中取出字符并释放。 扩展的隐藏马尔柯夫模型(GHMMs ) 对HMM进一步抽象,产生更一般的马尔柯夫模型,以分析复杂的脊椎动物基因 。 (1) 信号传感器模型 将剪切位点、起始编码区域或者终止编码区域看成是DNA序列上的功能位点或者信号位点,用HMM来进行分析 内含子区域 外显子区域 保守位点 根据对比排列,形成具有19状态的HMM模型。 对前一节所介绍的HMM模型进行修改,可以处理双联核苷酸的问题,即将4种概率分布扩展为16种。 假设一段序列为ACTGTC…,则 P(ACTGTC…)=p1(A)?p2(C?A)?p3(T?C)?p4(G?T)?p5(T?G)?p6(C?T)… 其中p1是状态1对于4种核苷酸的概率,p2(x?y)状态2的条件概率。 (2) 编码区模型 由于密码子的长度为3,因此密码子模型的最后一个状态应该至少为2阶。 对于2阶的状态,具有64种概率分布,可根据已知编码区域进行统计计算而得到64种分布。例如: p(A?CA)=c(CAA)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)] p(C?CA)=c(CAC)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)] p(G?CA)=c(CAG)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)] p(T?CA)=c(CAT)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)] 其中,c(xyz)是密码子xyz的计数。 这样的模型可以检测无结束编码的区域,因为对应于三个结束编码TAA、TAG和TGA的p(A?TA)、p(G?TA)和p(A?TG)自动为0。 (3) 组合模型 将上述模型扩展,使之可以识别具有多个外显子的基因。 改进后的模型见下图 7、基于剪切比对的基因识别方法 基本思想是:利用数据库中的同源信息进行基因识别,包括DNA、RNA和蛋白质数据库。 其方法是: 首先通过分析所有可能的剪切接受体位点和剪切给体位点,构建一组候选的外显子。 然后进一步分析候选外显子,探查所有可能的外显子组合,寻找一个与已知目标蛋白质或其他表达序列最匹配的组合 一种半自动的综合方法识别基因过程: (1)选择所有长度大于50bp并介于保守的剪切接受位点和给体位点之间的ORF,作为候选的外显子; 预选 (2)对于候选的外显子计算其6目编码度量值,并从大到小将它们排列起来; 减小搜索范围 (3)对照蛋白质序列数据库进行搜索,寻找相似体。 搜索,筛选 8、基因识别程序介绍 表5.7 基因识别程序及访问地址 (HP—主页;ES—E-mail服务器;WS—web服务器;CL—客户/服务器协议; EX—有可执行代码;SC—有源代码) 表5.8 各程序的性能比较(敏感性(1)—被预测出的真实编码核酸的%; 敏感性(2)—被正确识别出的编码外显子的%; 特异性(1)—预测出的编码核酸为真实编码核酸的%; 特异性(2)—预测出外显子为真实外显子的%) 基因识别方法存在的问题和局限性: (1)关于基因的定义不明确 → 统一定义 (2)目前的方法仅仅识别蛋白质编码基因 → 转录信号 (3

文档评论(0)

benzei244572 + 关注
实名认证
内容提供者

没啥好说的额

1亿VIP精品文档

相关文档