基因组信息分析重点培训.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
演示文稿演讲PPT学习教学课件医学文件教学培训课件

; ;1、基因组DNA的奥秘 遗传信息存贮在4种字符组成的核酸序列中 “天书”──用遗传语言书写的人类遗传蓝本 包含的信息量巨大 更重要的是目前人类对它了解甚少 天书中只有4个字符(碱基A、T、G、C) 既没有段落,也没有标点符号 是一个长度为3×109的一维序列。 ; 科学家对这本天书了解最多的部分就是遗传密码 或者说掌握了DNA对蛋白质编码的规律 关于密码子 (1)密码子的使用是非随机的 如果密码子的第一、第二位碱基是A、U, 那么第三位将尽可能使用G、C;反之亦然。 如果三位都用G、C,则配对容易,分解难; 三位都用A、U,则相反。 一般地说,高表达的基因,要求翻译速度快, 要求密码子和反密码子配对快、分手也快。 ;2、探索遗传语言 用语言学的方法进行研究 自然语言 计算机程序设计语言 遗传语言 二进制序列0、1的长程关联性分析结果: 编码区域 ──自然语言 非编码区域 ── 程序设计语言 蛋白质编码区域所包含的信息相当于待加工的“数据” 数据经过加工处理以后产生对应的蛋白质; 而非编码区域则相当于“程序”或“指令”,确定如何在时间和空间方面控制基因的表达和蛋白质的合成 ; 用密码学方法进行研究 是否存在其它密码? ──调控信息密码? ──蛋白质结构的密码? 编码在DNA上的一维程序如何在四维时空中控制生命体的生长发育;3、关于生物复杂性 生物的复杂性不仅仅是基因的数目 人类基因约为30000个 线虫有20000个基因;4、基因组计划带来的希望 实验数据的积累速度在迅速地增加 计算机科学和技术也在不断地发展 ;单个基因组分析 基因序列 基因功能 基因的表达调控 基因产物 基因多态性;比较基因组分析 物种关系 物种进化 物种起源;人、鼠基因组比较 ;SARS 基因组 (Severe Acute Respiratory Syndrome);全基因组核酸搜索结果 ;分段核酸搜索结果 ;全基因组蛋白质搜索结果 ;原核基因组特点;长开放阅读框 ;长开放阅读框;原核基因分析的简单原则;高基因密度 ;简单的基因结构 ;GC含量 ;真核基因组特点 ;基因组规模 ;非编码序列巨大;基因结构复杂;基因转录调控方式复杂 ;可变剪接 ;CpG?? ;CpG岛;等值区 ;密码子使用偏性 ;基因组序列分析;5.4.1 基因组序列分析步骤和分析结果评价;发现重复元素;功能序列分析的准确性来自于对“功能序列”和“非功能序列”的辨别能力。 两个集合: 训练集(training set) 用于建立完成识别任务的数学模型。 测试集或控制集(control set) 用于检验所建模型的正确性。 用训练集中实例对预测模型进行训练,使之通过学习后具有正确处理和辨别能力。然后,用模型对测试集中的实例进行“功能”与“非功能”的判断,根据判断结果计算模识别的准确性。;收集已知的功能序列和非功能序列实例 (这些序列之间是非相关的 );Sn ──敏感性 Sp──特异性 Tp是正确识别的功能序列数, Tn为正确识别的非功能序列数, Fn是被错误识别为非功能序列的功能序列数, Fp是被错误识别为功能序列的非功能序列数。;敏感性和特异性的权衡;对于一个识别程序准确性可按下式进行综合评价: 另一个综合评介指标为相关系数,其计算计算公式为: ;选择训练集和测试集 在检测算法的可行性时,需要从已知的数据中按照不同的方式选择训练集和测试集 测试集的构成非常关键 在不同的测试集上进行测试可能会得到不同的准确性结果,甚至准确性相差很大。 建立标准的功能序列测试集合。 如基因转录剪切位点的测试集合、编码区域的测试集合等。 ;5.4.2 核苷酸关联分析;核苷酸 ;在统计过程中,如果同时计算DNA的正反两条链,则根据碱基配对原则,A和T、C和G的出现频率相同。 如果仅统计一条链,则虽然A和T、C和G的出现频率不同,但是非常接近。;核苷酸 ;基因和其它功能区域 在正反两条链上出现的 可能性通常一样 ;两联核苷酸频率 ;酵母基因组两联核苷酸频率表;令: Pij ── 代表两联核苷酸(i,j)的出现频率 Pi ── 代表核苷酸i的出现频率 则 : Pij’= Pij/(PiPj) 的值反应核苷酸i和j的关联关系 如果Pij’=1,则在两个连续的位置上,核苷酸i和j的出现是相对独立的。; 对于酵母基因组 PA=0.3248 PAA=0.1193 PAA’ =0.1193/(0.3248﹡0.3248) =1.131 1 表明在两个连续位置上“A”的出现不是独立的

文档评论(0)

yuzongxu123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档