- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
演示文稿演讲PPT学习教学课件医学文件教学培训课件
;;1、基因组DNA的奥秘
遗传信息存贮在4种字符组成的核酸序列中
“天书”──用遗传语言书写的人类遗传蓝本
包含的信息量巨大
更重要的是目前人类对它了解甚少
天书中只有4个字符(碱基A、T、G、C)
既没有段落,也没有标点符号
是一个长度为3×109的一维序列。 ; 科学家对这本天书了解最多的部分就是遗传密码
或者说掌握了DNA对蛋白质编码的规律
关于密码子
(1)密码子的使用是非随机的
如果密码子的第一、第二位碱基是A、U,
那么第三位将尽可能使用G、C;反之亦然。
如果三位都用G、C,则配对容易,分解难;
三位都用A、U,则相反。
一般地说,高表达的基因,要求翻译速度快,
要求密码子和反密码子配对快、分手也快。 ;2、探索遗传语言
用语言学的方法进行研究
自然语言
计算机程序设计语言
遗传语言
二进制序列0、1的长程关联性分析结果:
编码区域 ──自然语言
非编码区域 ── 程序设计语言
蛋白质编码区域所包含的信息相当于待加工的“数据”
数据经过加工处理以后产生对应的蛋白质;
而非编码区域则相当于“程序”或“指令”,确定如何在时间和空间方面控制基因的表达和蛋白质的合成 ; 用密码学方法进行研究
是否存在其它密码?
──调控信息密码?
──蛋白质结构的密码?
编码在DNA上的一维程序如何在四维时空中控制生命体的生长发育;3、关于生物复杂性
生物的复杂性不仅仅是基因的数目
人类基因约为30000个
线虫有20000个基因;4、基因组计划带来的希望
实验数据的积累速度在迅速地增加
计算机科学和技术也在不断地发展 ;单个基因组分析
基因序列
基因功能
基因的表达调控
基因产物
基因多态性;比较基因组分析
物种关系
物种进化
物种起源;人、鼠基因组比较 ;SARS 基因组
(Severe Acute Respiratory Syndrome);全基因组核酸搜索结果 ;分段核酸搜索结果 ;全基因组蛋白质搜索结果 ;原核基因组特点;长开放阅读框 ;长开放阅读框;原核基因分析的简单原则;高基因密度 ;简单的基因结构 ;GC含量 ;真核基因组特点;基因组规模 ;非编码序列巨大;基因结构复杂;基因转录调控方式复杂 ;可变剪接 ;CpG?? ;CpG岛;等值区 ;密码子使用偏性 ;基因组序列分析;5.4.1 基因组序列分析步骤和分析结果评价;发现重复元素;功能序列分析的准确性来自于对“功能序列”和“非功能序列”的辨别能力。
两个集合:
训练集(training set)
用于建立完成识别任务的数学模型。
测试集或控制集(control set)
用于检验所建模型的正确性。
用训练集中实例对预测模型进行训练,使之通过学习后具有正确处理和辨别能力。然后,用模型对测试集中的实例进行“功能”与“非功能”的判断,根据判断结果计算模识别的准确性。;收集已知的功能序列和非功能序列实例
(这些序列之间是非相关的 );Sn ──敏感性
Sp──特异性
Tp是正确识别的功能序列数,
Tn为正确识别的非功能序列数,
Fn是被错误识别为非功能序列的功能序列数,
Fp是被错误识别为功能序列的非功能序列数。;敏感性和特异性的权衡;对于一个识别程序准确性可按下式进行综合评价:
另一个综合评介指标为相关系数,其计算计算公式为:
;选择训练集和测试集
在检测算法的可行性时,需要从已知的数据中按照不同的方式选择训练集和测试集
测试集的构成非常关键
在不同的测试集上进行测试可能会得到不同的准确性结果,甚至准确性相差很大。
建立标准的功能序列测试集合。
如基因转录剪切位点的测试集合、编码区域的测试集合等。 ;5.4.2 核苷酸关联分析;核苷酸 ;在统计过程中,如果同时计算DNA的正反两条链,则根据碱基配对原则,A和T、C和G的出现频率相同。
如果仅统计一条链,则虽然A和T、C和G的出现频率不同,但是非常接近。;核苷酸 ;基因和其它功能区域
在正反两条链上出现的
可能性通常一样 ;两联核苷酸频率 ;酵母基因组两联核苷酸频率表;令:
Pij ── 代表两联核苷酸(i,j)的出现频率
Pi ── 代表核苷酸i的出现频率
则 :
Pij’= Pij/(PiPj)
的值反应核苷酸i和j的关联关系
如果Pij’=1,则在两个连续的位置上,核苷酸i和j的出现是相对独立的。;
对于酵母基因组
PA=0.3248
PAA=0.1193
PAA’ =0.1193/(0.3248﹡0.3248) =1.131 1
表明在两个连续位置上“A”的出现不是独立的
文档评论(0)