DNA序列分析-东南大学生物信息学实验室.pdf

DNA序列分析-东南大学生物信息学实验室.pdf

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第五章DNA序列分析

对于DNA序列分析,除了序列比较之外,我们最关心的就是从序列之中找到基因及其表达调控

信息。寻找基因牵涉到两个方面的工作,一是识别与基因相关的特殊序列信号,如启动子、起始密

码子,通过信号识别大致确定基因所在的区域。另一个工作是预测基因的编码区域,或预测外显子

所在的区域。然后结合两个方面的结果确定基因的位置和结构。绝大部分基因表达调控信息隐藏在

基因序列的上游区域,在组成上具有一定的特征,可以通过序列分析识别这些特征。本章主要讨论

如何分析DNA序列中的信息,着重介绍功能位点分析和基因识别方法。

第一节DNA序列分析步骤和分析结果评价

在DNA序列中,除了基因之外,还包含许多其它信息,这些信息大部分与核酸的结构特征相关

联,通常决定了DNA与蛋白质或者DNA与RNA的相互作用。存放这些信息的DNA片段称为功能位点,

如启动子(Promoter)、基因终止序列(Terminatorsequence)、剪切位点(Splicesite)等。

在实际应用中,对于DNA序列需要根据不同的要求进行不同的处理,不存在一个通用的序列分

析方法。但是由于分析的对象都是DNA序列,并且在绝大部分情况,待解决的问题可以归纳为序列

特征识别或者序列模式识别问题,目标是寻找基因及其表达调控信息,因而可以给出一个基本的DNA

序列分析方案。

(1)发现重复元素。这是重要的一步,因为重复元素会给DNA序列分析带来许多问题。例如,由于

重复元素的存在,在搜索数据库时可能得到许多同样的结果,这些结果的得分很高,使解释数

据库搜索结果变得复杂、困难。所以一般先寻找并屏蔽重复的和低复杂性的序列,然后寻找基

因以及与其相关的调控区域。

(2)数据库搜索。通过数据库搜索,发现相似序列或者同源序列,根据相似序列具有相似结构及相

似功能的原理,通过类比,得到关于待分析序列的初步信息,指导详细的序列分析。例如,如

果通过搜索发现待分析的序列与EST或已知的蛋白质编码序列相似,则可以推测待分析的序列

是基因序列。

(3)分析功能位点。其主要目的是识别DNA序列上存在的序列信号,具体说就是特殊的片段。这些

片段与基因及调控信息有关,如转录剪切位点、启动子、起始密码子等。对于基因识别问题来

说,通过信号识别可以大致确定基因所在的区域。

(4)序列组成统计分析。蛋白质编码区域与非编码区域在DNA序列组成上具有明显不同的统计特

征,编码序列具有三联周期性,编码区域多联核苷酸出现频率与非编码区域不同。因而可以通

过统计分析预测基因的编码区域,预测一段DNA序列成为编码区域的可能性,寻找可能外显子

(exon)。

(5)综合分析。综合数据库搜索、功能位点分析、序列组成分析的等阶段性结果,检查这些结果的

相容性,经过整理,最终得到一致性分析结果。

无论是DNA序列上功能位点识别,还是基因结构预测,都涉及到“功能序列”分析和识别,如

信号序列的识别和蛋白质编码区域的识别,需要对识别结果的准确性进行评价。这关系到识别(预

测)算法是否可行、识别程序是否可用、识别结果是否可信,只有通过科学地评价才能对同类程序

进行比较。

功能序列分析的准确性来自于对“功能序列”和“非功能序列”的辨别能力。在实际应用中,

解决具体识别问题的过程是一个多阶段的过程。首先收集已知的功能序列和非功能序列实例,并且

要求这些序列之间是非相关的。将这些序列混合在一起,形成两个集合。一个集合是训练集(training

set),用于建立完成识别任务的数学模型。另一个集合是测试集或控制集(controlset),用于检

验所建模型的正确性。用训练集中实例对预测模型进行训练,使之通过学习后具有正确处理和辨别

能力。然后,用模型对测试集中的实例进行“功能”与“非功能”的判断,根据判断结果计算模型

识别的准确性。

设Tp是程序正确识别的功能序列数,Tn为正确识别的非功能序列数,Fn是被错误识别为非功

能序列的功能序列数,Fp是被错误识别为功能序列的非功能序列数。以Sn和Sp分别代表识别程序

对功能序列的敏感性和识别的特异性,其计算公式如下(Baldietal.,2000):

文档评论(0)

. + 关注
官方认证
内容提供者

专注于职业教育考试,学历提升。

版权声明书
用户编号:8032132030000054
认证主体社旗县清显文具店
IP属地河南
统一社会信用代码/组织机构代码
92411327MA45REK87Q

1亿VIP精品文档

相关文档