东南大学chapter5_1DNA序列分析.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
东南大学chapter5_1DNA序列分析

;第五章 DNA序列分析;第一节 DNA序列分析步骤和分析结果评价;发现重复元素;功能序列分析的准确性来自于对“功能序列”和“非功能序列”的辨别能力。 两个集合: 训练集(training set) 用于建立完成识别任务的数学模型。 测试集或控制集(control set) 用于检验所建模型的正确性。 用训练集中实例对预测模型进行训练,使之通过学习后具有正确处理和辨别能力。然后,用模型对测试集中的实例进行“功能”与“非功能”的判断,根据判断结果计算模识别的准确性。;收集已知的功能序列和非功能序列实例 (这些序列之间是非相关的 );Sn ——敏感性 Sp——特异性 Tp是正确识别的功能序列数, Tn为正确识别的非功能序列数, Fn是被错误识别为非功能序列的功能序列数, Fp是被错误识别为功能序列的非功能序列数。;敏感性和特异性的权衡;对于一个识别程序准确性可按下式进行综合评价: 另一个综合评介指标为相关系数,其计算计算公式为: ;选择训练集和测试集 在检测算法的可行性时,需要从已知的数据中按照不同的方式选择训练集和测试集 测试集的构成非常关键 在不同的测试集上进行测试可能会得到不同的准确性结果,甚至准确性相差很大。 建立标准的功能序列测试集合。 如基因转录剪切位点的测试集合、编码区域的测试集合等。 ;第二节 核苷酸关联分析;核苷酸 ;在统计过程中,如果同时计算DNA的正反两条链,则根据碱基配对原则,A和T、C和G的出现频率相同。 如果仅统计一条链,则虽然A和T、C和G的出现频率不同,但是非常接近。;核苷酸 ;基因和其它功能区域 在正反两条链上出现的 可能性通常一样 ;两联核苷酸频率 ;酵母基因组两联核苷酸频率表;令: Pij —— 代表两联核苷酸(i,j)的出现频率 Pi —— 代表核苷酸i的出现频率 则 : Pij’= Pij/(PiPj) 的值反应核苷酸i和j的关联关系 如果Pij’=1,则在两个连续的位置上,核苷酸i和j的出现是相对独立的。; 对于酵母基因组 PA=0.3248 PAA=0.1193 PAA’ =0.1193/(0.3248*0.3248) =1.131 1 表明在两个连续位置上“A”的出现不是独立的,而是相关的。;同样,对于相隔一定距离k(k代表核苷酸个数)的两个核苷酸,也可能具有一定的相关性。 假设Pij(k)代表核苷酸j出现在核苷酸i之后第k个位置的频率,则可定义一个反应统计相关性的互信息I(k) I(k)值得大小实际上反应了距离为k的两个核苷酸之间的相关性的程度;三联核苷酸——基因密码子 ;基因密码子的使用与基因编码的蛋白的结构和功能有关,与基因表达的生理功能有着密切的联系 蛋白的三级结构与密码子使用概率有密切的关系 通过对密码子的聚类分析,可以很清晰地将具有不同三级结构蛋白质的编码基因分成不同的类,而具有相似三级结构蛋白的编码基因则大致聚在同一类中,从而证明基因密码子的使用偏性与蛋白质三级结构具有密切的相关性。 在不同物种中,类型相同的基因具有相近的同义密码子使用偏性 对于同一类型的基因由物种引起的同义密码子使用偏性的差异较小 ;针对酵母第一染色体的分析结果;第三节 功能位点分析;功能位点示意;基因组序列中若干个相邻的功能位点组合形成功能区域(functional region)。 功能位点分析的任务 发现功能位点特征 识别功能位点;1、利用共有序列搜索功能位点;共有序列具有以下几个方面的特征: (1)共有序列中既有保守的位置,也有可变的位置; (2)任何位置上的核苷酸可以用15种类型之一来表示: ;核苷酸表示符号;共有序列构造过程: (1)初始化共有序列为一系列可变位置,以“N”代表; (2)在可变位置寻找出现次数最多的核苷酸,并将该位置转化为保守位置; (3)对当前所得到的共有序列进行特异性检查,若通过检查,转(5),否则转(4); (4)形成与当前共有序列一致的位点子集,转(2); (5)从原位点集合中删除与当前共有序列一致的位点,若还有剩余位点,则转(1),构造另外的共有序列。;TTATG;在给定的序列中搜索与共有序列一致的序列片段 数据库搜索 共有序列表示方法的缺点: 是关于序列特征的一种定性描述,对于DNA序列,它能够说明序列每个位置可能出现的碱基类型,但是不能准确地说明各位置上不同类型碱基出现的可能性大小。;2、用感知矩阵分析功能位点; 矩阵的每一个元素M(a,j)的值代表第a种核苷酸在功能位点第j个位置上出现的得分,a ?{A,T,G,C}。;对于一个序列s=a1a2…an,根据对应位置上核苷酸的类型,取感知矩阵中对应的权值,加和

文档评论(0)

ccx55855 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档