第五章DNA序列分析.doc

下载文档

33
0
约1.96万字
约 17页
2017-09-12 发布于江苏
举报
版权申诉
保障服务

第五章DNA序列分析.doc

1、本文档共17页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第五章DNA序列分析

第五章 DNA序列分析对于DNA序列分析，除了序列比较之外，我们最关心的就是从序列之中找到基因及其表达调控信息。寻找基因牵涉到两个方面的工作，一是识别与基因相关的特殊序列信号，如启动子、起始密码子，通过信号识别大致确定基因所在的区域。另一个工作是预测基因的编码区域，或预测外显子所在的区域。然后结合两个方面的结果确定基因的位置和结构。绝大部分基因表达调控信息隐藏在基因序列的上游区域，在组成上具有一定的特征，可以通过序列分析识别这些特征。本章主要讨论如何分析DNA序列中的信息，着重介绍功能位点分析和基因识别方法。 DNA序列分析步骤和分析结果评价在DNA序列中，除了基因之外，还包含许多其它信息，这些信息大部分与核酸的结构特征相关联，通常决定了DNA与蛋白质或者DNA与RNA的相互作用。存放这些信息的DNA片段称为功能位点，如启动子（Promoter）、基因终止序列（Terminator sequence）、剪切位点（Splice site）等。在实际应用中，对于DNA序列需要根据不同的要求进行不同的处理，不存在一个通用的序列分析方法。但是由于分析的对象都是DNA序列，并且在绝大部分情况，待解决的问题可以归纳为序列特征识别或者序列模式识别问题，目标是寻找基因及其表达调控信息，因而可以给出一个基本的DNA序列分析方案。发现重复元素。这是重要的一步，因为重复元素会给DNA序列分析带来许多问题。例如，由于重复元素的存在，在搜索数据库时可能得到许多同样的结果，这些结果的得分很高，使解释数据库搜索结果变得复杂、困难。所以一般先寻找并屏蔽重复的和低复杂性的序列，然后寻找基因以及与其相关的调控区域。数据库搜索。通过数据库搜索，发现相似序列或者同源序列，根据相似序列具有相似结构及相似功能的原理，通过类比，得到关于待分析序列的初步信息，指导详细的序列分析。例如，如果通过搜索发现待分析的序列与EST或已知的蛋白质编码序列相似，则可以推测待分析的序列是基因序列。分析功能位点。其主要目的是识别DNA序列上存在的序列信号，具体说就是特殊的片段。这些片段与基因及调控信息有关，如转录剪切位点、启动子、起始密码子等。对于基因识别问题来说，通过信号识别可以大致确定基因所在的区域。序列组成统计分析。蛋白质编码区域与非编码区域在DNA序列组成上具有明显不同的统计特征，编码序列具有三联周期性，编码区域多联核苷酸出现频率与非编码区域不同。因而可以通过统计分析预测基因的编码区域，预测一段DNA序列成为编码区域的可能性，寻找可能外显子（exon）。综合分析。综合数据库搜索、功能位点分析、序列组成分析的等阶段性结果，检查这些结果的相容性，经过整理，最终得到一致性分析结果。无论是DNA序列上功能位点识别，还是基因结构预测，都涉及到“功能序列”分析和识别，如信号序列的识别和蛋白质编码区域的识别，需要对识别结果的准确性进行评价。这关系到识别（预测）算法是否可行、识别程序是否可用、识别结果是否可信，只有通过科学地评价才能对同类程序进行比较。功能序列分析的准确性来自于对“功能序列”和“非功能序列”的辨别能力。在实际应用中，解决具体识别问题的过程是一个多阶段的过程。首先收集已知的功能序列和非功能序列实例，并且要求这些序列之间是非相关的。将这些序列混合在一起，形成两个集合。一个集合是训练集（training set）,用于建立完成识别任务的数学模型。另一个集合是测试集或控制集（control set），用于检验所建模型的正确性。用训练集中实例对预测模型进行训练，使之通过学习后具有正确处理和辨别能力。然后，用模型对测试集中的实例进行“功能”与“非功能”的判断，根据判断结果计算模型识别的准确性。设Tp是程序正确识别的功能序列数，Tn为正确识别的非功能序列数，Fn是被错误识别为非功能序列的功能序列数，Fp是被错误识别为功能序列的非功能序列数。以Sn和Sp分别代表识别程序对功能序列的敏感性和识别的特异性，其计算公式如下（Baldi et al., 2000）： (5-1) (5-2) 对于一个实用程序，既要求有较高的敏感性，也要求有较高的特异性。如果敏感性很高，但特异性比较低，则在实际应用中会产生高比率的假阳性；相反，如果特异性很高，而敏感性比较低，则会产生高比率的假阴性。对于敏感性和特异性需要进行权衡，给出综合评价指标。对于一个识别程序准确性可按下式进行综合评价： (5-3) 另一个综合评介指标为相关系数，其计算计算公式为： (5-4) Baldi等人对生物信息学中分类算法的预测准确性评价进行了深入的研究，详细结果参见文献（B