第五章DNA序列分析.doc

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第五章DNA序列分析

第五章 DNA序列分析 对于DNA序列分析,除了序列比较之外,我们最关心的就是从序列之中找到基因及其表达调控信息。寻找基因牵涉到两个方面的工作,一是识别与基因相关的特殊序列信号,如启动子、起始密码子,通过信号识别大致确定基因所在的区域。另一个工作是预测基因的编码区域,或预测外显子所在的区域。然后结合两个方面的结果确定基因的位置和结构。绝大部分基因表达调控信息隐藏在基因序列的上游区域,在组成上具有一定的特征,可以通过序列分析识别这些特征。本章主要讨论如何分析DNA序列中的信息,着重介绍功能位点分析和基因识别方法。 DNA序列分析步骤和分析结果评价 在DNA序列中,除了基因之外,还包含许多其它信息,这些信息大部分与核酸的结构特征相关联,通常决定了DNA与蛋白质或者DNA与RNA的相互作用。存放这些信息的DNA片段称为功能位点,如启动子(Promoter)、基因终止序列(Terminator sequence)、剪切位点(Splice site)等。 在实际应用中,对于DNA序列需要根据不同的要求进行不同的处理,不存在一个通用的序列分析方法。但是由于分析的对象都是DNA序列,并且在绝大部分情况,待解决的问题可以归纳为序列特征识别或者序列模式识别问题,目标是寻找基因及其表达调控信息,因而可以给出一个基本的DNA序列分析方案。 发现重复元素。这是重要的一步,因为重复元素会给DNA序列分析带来许多问题。例如,由于重复元素的存在,在搜索数据库时可能得到许多同样的结果,这些结果的得分很高,使解释数据库搜索结果变得复杂、困难。所以一般先寻找并屏蔽重复的和低复杂性的序列,然后寻找基因以及与其相关的调控区域。 数据库搜索。通过数据库搜索,发现相似序列或者同源序列,根据相似序列具有相似结构及相似功能的原理,通过类比,得到关于待分析序列的初步信息,指导详细的序列分析。例如,如果通过搜索发现待分析的序列与EST或已知的蛋白质编码序列相似,则可以推测待分析的序列是基因序列。 分析功能位点。其主要目的是识别DNA序列上存在的序列信号,具体说就是特殊的片段。这些片段与基因及调控信息有关,如转录剪切位点、启动子、起始密码子等。对于基因识别问题来说,通过信号识别可以大致确定基因所在的区域。 序列组成统计分析。蛋白质编码区域与非编码区域在DNA序列组成上具有明显不同的统计特征,编码序列具有三联周期性,编码区域多联核苷酸出现频率与非编码区域不同。因而可以通过统计分析预测基因的编码区域,预测一段DNA序列成为编码区域的可能性,寻找可能外显子(exon)。 综合分析。综合数据库搜索、功能位点分析、序列组成分析的等阶段性结果,检查这些结果的相容性,经过整理,最终得到一致性分析结果。 无论是DNA序列上功能位点识别,还是基因结构预测,都涉及到“功能序列”分析和识别,如信号序列的识别和蛋白质编码区域的识别,需要对识别结果的准确性进行评价。这关系到识别(预测)算法是否可行、识别程序是否可用、识别结果是否可信,只有通过科学地评价才能对同类程序进行比较。 功能序列分析的准确性来自于对“功能序列”和“非功能序列”的辨别能力。在实际应用中,解决具体识别问题的过程是一个多阶段的过程。首先收集已知的功能序列和非功能序列实例,并且要求这些序列之间是非相关的。将这些序列混合在一起,形成两个集合。一个集合是训练集(training set),用于建立完成识别任务的数学模型。另一个集合是测试集或控制集(control set),用于检验所建模型的正确性。用训练集中实例对预测模型进行训练,使之通过学习后具有正确处理和辨别能力。然后,用模型对测试集中的实例进行“功能”与“非功能”的判断,根据判断结果计算模型识别的准确性。 设Tp是程序正确识别的功能序列数,Tn为正确识别的非功能序列数,Fn是被错误识别为非功能序列的功能序列数,Fp是被错误识别为功能序列的非功能序列数。以Sn和Sp分别代表识别程序对功能序列的敏感性和识别的特异性,其计算公式如下(Baldi et al., 2000): (5-1) (5-2) 对于一个实用程序,既要求有较高的敏感性,也要求有较高的特异性。如果敏感性很高,但特异性比较低,则在实际应用中会产生高比率的假阳性;相反,如果特异性很高,而敏感性比较低,则会产生高比率的假阴性。对于敏感性和特异性需要进行权衡,给出综合评价指标。对于一个识别程序准确性可按下式进行综合评价: (5-3) 另一个综合评介指标为相关系数,其计算计算公式为: (5-4) Baldi等人对生物信息学中分类算法的预测准确性评价进行了深入的研究,详细结果参见文献(B

文档评论(0)

wyw118 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档