- 1
- 0
- 约4.07千字
- 约 56页
- 2018-12-19 发布于福建
- 举报
第五节分基因识别
基因识别 2、真核基因识别问题 3、基因识别的主要方法 4、编码区域识别 5、构建基因模型 位点图(分层标注剪切位点) 6、用于基因识别的HMM模型 (1) 信号传感器模型 (2) 编码区模型 (3) 组合模型 7、基于剪切比对的基因识别方法 8、基因识别程序介绍 基因剪切位点 剪切给体(donor)位点- “gt” 接受体(acceptor)位点- “ag” 基因的可变剪切 gene A 基因可变剪切示意 构建基因模型方法 剪切位点形成外显子和内含子的边界 搜集候选外显子 → 候选基因 候选基因是一条非相交的外显子和内含子的链,表示为 (i0, e1, i1, …, en, in) 其中ij代表内含子(0?j?n) el代表外显子(1?l?n) i0和in并非真实的内含子,它们分别代表基因两侧的非编码序列 候选基因位于给定的DNA序列,并满足下列一致性条件: (1)所有外显子加起来的长度是3的整数倍; (2)在各个外显子内部(除最后一个外显子的最后一个密码子),没有终止编码; (3)第一个内含子-外显子边界(i0, e1)是翻译起始编码,而最后一个外显子-内含子边界(en, in)是终止编码。 另设两个特殊的顶点,即起点(source)和终点(sink)。 从起点到终点的任何一条路径代表一个可能的基因结构。 例如: 位点图上的路径 候选基因所对应的道路图中的路径 求最优路径 每一条弧附加一个权值 外显子、内含子度量 每个节点附加权值 剪切位点度量 综合评价 隐马尔柯夫模型HMM是一条状态不可见的马尔柯夫链,其当前状态的输出是可见的。 每个状态按照一定的概率分布随机地从字母表中取出字符并释放。 扩展的隐藏马尔柯夫模型(GHMMs ) 对HMM进一步抽象,产生更一般的马尔柯夫模型,以分析复杂的脊椎动物基因 。 将剪切位点、起始编码区域或者终止编码区域看成是DNA序列上的功能位点或者信号位点,用HMM来进行分析 内含子区域 外显子区域 保守位点 根据对比排列,形成具有19状态的HMM模型。 对前一节所介绍的HMM模型进行修改,可以处理双联核苷酸的问题,即将4种概率分布扩展为16种。 假设一段序列为ACTGTC…,则 P(ACTGTC…)=p1(A)?p2(C?A)?p3(T?C)?p4(G?T)?p5(T?G)?p6(C?T)… 其中p1是状态1对于4种核苷酸的概率,p2(x?y)状态2的条件概率。 由于密码子的长度为3,因此密码子模型的最后一个状态应该至少为2阶。 对于2阶的状态,具有64种概率分布,可根据已知编码区域进行统计计算而得到64种分布。例如: p(A?CA)=c(CAA)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)] p(C?CA)=c(CAC)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)] p(G?CA)=c(CAG)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)] p(T?CA)=c(CAT)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)] 其中,c(xyz)是密码子xyz的计数。 这样的模型可以检测无结束编码的区域,因为对应于三个结束编码TAA、TAG和TGA的p(A?TA)、p(G?TA)和p(A?TG)自动为0。 * * 第五节 基因识别 主讲人:孙 啸 制作人:刘志华 东南大学 吴健雄实验室 基因识别是生物信息学领域里的一个重要研究内容 基因识别问题,在近几年受到广泛的重视 当人类基因组研究进入一个系统测序阶段时,急需可靠自动的基因组序列翻译解释技术,以处理大量已测定的但未知功能或未经注释的DNA序列 原核基因识别 重点在于识别编码区域 非翻译区域(untranslated regions, UTR) 编码区域两端的DNA,有一部分被转录,但是不被翻译,这一部分称为非翻译区域 5’UTR---基因上游区域的非翻译区域 3’UTR---基因下游区域的非翻译区域 对于任何给定的核酸序列(单链DNA或mRNA),根据密码子的起始位置,可以按照三种方式进行解释。 例如,序列ATTCGATCGCAA 这三种阅读顺序称为阅读框(reading frames) CAA A ATT CGA TCG A TTC GAT CGC AA AT TCG ATC GCA (1) (3) (2) 一个开放阅读框(ORF,open reading frame)是一个没有终止编码的密码子序列。 原核基因识别任务的重点是识别开放阅读框,或者说识别长的编码区域。 基于基因密码子特性的识
您可能关注的文档
- 第五章遗传算法pp没t课件.pptx
- 第五章酶的概念你本质命名分类作用特点专一性结构与功能关系.ppt
- 第五章酸没度的测定.PPT
- 第五章酸没碱平衡.ppt
- 第五章酸碱但滴定法.ppt
- 第五章酸碱分平衡与沉淀平衡.PPT
- 第五章进入合成有机高分子化对合物的时代.ppt
- 第五章酸碱滴定法Acid-baseTitrat都ion.ppt
- 第五章酸碱滴定法Acidbase但Titration.ppt
- 第五章釜式连续发反应器ppt课件.ppt
- G681线阿勒泰至禾木喀纳斯公路建设项目增补观景停车区等服务设施项目环境影响报告表.pdf
- 来宾韦文林建材年产100万吨机制砂项目环境影响报告表.pdf
- 合山市高端环保免漆生态板加工项目环境影响报告表.pdf
- 3.5万吨_年生物基丁二酸及衍生物高端制造项目(重新报批)报告书.pdf
- G631淮阳区王店至周西路口段新建工程报告书.pdf
- 年产12万吨装配式智能钢结构、50万套钢结构工程机械配件智能自动化生产线项目环境影响报告书.doc
- 2024年新疆维吾尔自治区福海县渔业绿色循环发展试点-生态型活鱼育肥箱系统采购项目环境影响报告表.pdf
- 广西1828大健康产业园项目环境影响报告表.pdf
- 220千伏金秀站扩建工程环境影响报告表.pdf
- 20万吨_年聚苯乙烯产品优化提升项目报告书.pdf
原创力文档

文档评论(0)