生物信息学chapter_分析.ppt

下载文档 降价啦

3
0
约4.07千字
约 56页
2016-03-24 发布于湖北
举报
版权申诉
保障服务

生物信息学chapter_分析.ppt

1、本文档共56页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基因识别 2、真核基因识别问题 3、基因识别的主要方法 4、编码区域识别 5、构建基因模型位点图（分层标注剪切位点） 6、用于基因识别的HMM模型 (1) 信号传感器模型 (2) 编码区模型 (3) 组合模型７、基于剪切比对的基因识别方法８、基因识别程序介绍基因剪切位点剪切给体（donor）位点- “gt” 接受体（acceptor）位点- “ag” 基因的可变剪切 gene A 基因可变剪切示意构建基因模型方法剪切位点形成外显子和内含子的边界搜集候选外显子 → 候选基因候选基因是一条非相交的外显子和内含子的链，表示为（i0, e1, i1, …, en, in）其中ij代表内含子（0?j?n） el代表外显子（1?l?n） i0和in并非真实的内含子，它们分别代表基因两侧的非编码序列候选基因位于给定的DNA序列，并满足下列一致性条件：（1）所有外显子加起来的长度是3的整数倍；（2）在各个外显子内部（除最后一个外显子的最后一个密码子），没有终止编码；（3）第一个内含子-外显子边界（i0, e1）是翻译起始编码，而最后一个外显子-内含子边界（en, in）是终止编码。另设两个特殊的顶点，即起点（source）和终点（sink）。从起点到终点的任何一条路径代表一个可能的基因结构。例如：位点图上的路径候选基因所对应的道路图中的路径求最优路径每一条弧附加一个权值外显子、内含子度量每个节点附加权值剪切位点度量综合评价隐马尔柯夫模型HMM是一条状态不可见的马尔柯夫链，其当前状态的输出是可见的。每个状态按照一定的概率分布随机地从字母表中取出字符并释放。扩展的隐藏马尔柯夫模型（GHMMs ）对HMM进一步抽象，产生更一般的马尔柯夫模型，以分析复杂的脊椎动物基因。将剪切位点、起始编码区域或者终止编码区域看成是DNA序列上的功能位点或者信号位点，用HMM来进行分析内含子区域外显子区域保守位点根据对比排列，形成具有19状态的HMM模型。对前一节所介绍的HMM模型进行修改，可以处理双联核苷酸的问题，即将4种概率分布扩展为16种。假设一段序列为ACTGTC…，则 P(ACTGTC…)=p1(A)?p2(C?A)?p3(T?C)?p4(G?T)?p5(T?G)?p6(C?T)… 其中p1是状态1对于4种核苷酸的概率，p2(x?y)状态2的条件概率。由于密码子的长度为3，因此密码子模型的最后一个状态应该至少为2阶。对于2阶的状态，具有64种概率分布，可根据已知编码区域进行统计计算而得到64种分布。例如： p(A?CA)=c(CAA)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)] p(C?CA)=c(CAC)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)] p(G?CA)=c(CAG)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)] p(T?CA)=c(CAT)/[c(CAA)+c(CAC)+c(CAG)+c(CAT)] 其中，c(xyz)是密码子xyz的计数。这样的模型可以检测无结束编码的区域，因为对应于三个结束编码TAA、TAG和TGA的p(A?TA)、p(G?TA)和p(A?TG)自动为0。 * * 第五节基因识别主讲人：孙啸制作人：刘志华东南大学吴健雄实验室基因识别是生物信息学领域里的一个重要研究内容基因识别问题，在近几年受到广泛的重视当人类基因组研究进入一个系统测序阶段时，急需可靠自动的基因组序列翻译解释技术，以处理大量已测定的但未知功能或未经注释的DNA序列原核基因识别重点在于识别编码区域非翻译区域（untranslated regions, UTR）编码区域两端的DNA，有一部分被转录，但是不被翻译，这一部分称为非翻译区域 5’UTR---基因上游区域的非翻译区域 3’UTR---基因下游区域的非翻译区域对于任何给定的核酸序列（单链DNA或mRNA），根据密码子的起始位置，可以按照三种方式进行解释。例如，序列ATTCGATCGCAA 这三种阅读顺序称为阅读框（reading frames） CAA A ATT CGA TCG A TTC GAT CGC AA AT TCG ATC GCA （1）（3）（2）一个开放阅读框（ORF,open reading frame）是一个没有终止编码的密码子序列。原核基因识别任务的重点是识别开放阅读框，或者说识别长的编码区域。基于基因密码子特性的识