- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
                        查看更多
                        
                    
                生物序列联配中的算法 - 中科院计算所生物信息课题组
                    生物序列联配中的算法                                          张 法 提 纲 背景知识 序列相似性的比较 两条序列的联配问题 多序列的联配问题 一些启发式的算法 生物序列联配中的并行算法 DNA(1) 脱氧核糖核酸 DNA的分子组成 核甘(nucleotides) 磷酸盐(phosphate) 糖(sugar) 一种碱基 腺嘌呤(Adenine) 鸟嘌呤(Guanine) 胞嘧啶(Cytosine) 胸腺嘧啶(Thymine) DNA(2) 碱基的配对原则 A(腺嘌呤)—T(胸腺嘧啶) C(鸟嘌呤)—G(胞嘧啶)  一个嘌呤基与一个嘧啶基通    过氢键联结成一个碱基对。 DNA分子的方向性 5→3 DNA(3) DNA的双螺旋结构       碱基对之间的互补能力 DNA(4) DNA的复制 在DNA解旋酶的作用    下两条链分离开,分     别作为一个模板,在     聚合酶的作用下合成     一条新链。  RNA、转录和翻译 RNA(核糖核酸):单链结构、尿嘧啶U代替胸腺嘧啶T、位于细胞核和细胞质中。 转录:DNA链 → RNA链                 信使RNA(mRNA),启动子。 翻译: mRNA上携带遗传信息在核糖体中合成蛋白质的过程。 变异 进化过程中由于不正确的复制,使DNA内容发生局部的改变。  变异的种类主要有以下三种:  替代(substitution) 插入或删除(insertion or deletion)  indel 重排(rearrangement) 蛋白质 由氨基酸依次链接形成在生物体中总共有20种氨基酸。 蛋白有十分复杂的三维结构。其三维机构决定了蛋白质的功能。  基 因 什么是基因? DNA上具有特定功能的一个片断,负责一种特定性状的表达。一般来讲,一个基因只编码一个蛋白质。 基因组 任何一条染色体上都带有许多基因,一条高等生物的染色体上可能带有成千上万个基因,一个细胞中的全部基因序列及其间隔序列统称为genomes(基因组)。   DNA上的基因                    基因 基因的编码 基因编码是一个逻辑的映射,表明存储在DNA和mRNA中的基因信息决定什么样的蛋白质序列。 每个碱基三元组称为一个密码子(codon) 碱基组成的三元组的排列共有43=64种,而氨基酸共有20种类型,所以不同的密码子可能表示同一种氨基酸。     带来的问题 序列排列问题  基因组的重排问题  蛋白质结构和功能的预测  基因(外显子、内含子)查找问题  序列装配(Sequence Assembly)问题 生物序列相似性的比较 动机 在生物学的研究中,将未知序列同已知序列进行比较分析已经成为一种强有力的研究手段 ,生物学领域中绝大部分的问题在计算机科学领域中主要体现为序列或字符串的问题 。 序列联配问题的分类    如果两个序列具有足够的相似性,则认为两者具有同源性。 - 序列相似性的比较 (两条序列的联配) 序列的分类 序列的排列 多序列的联配 两条序列联配问题的分类 全局联配(Global Alignment) 局部联配(Local Alignment) 空位处罚(Gap Penalty) 全局联配(1)-定义 定义1:两个任意的字符 x和y,?(x,y)表示表x和y比较时的分值。         ?(x,x)=2, ?(x,y)= ?(x,-)= ?(-,y)=-1 定义2:S= s1…sn和T=t1…tm,其全局联配A可以用序列S’和T’来表示,其中:    (1) | S’ | = | T’ |;    (2) 将S’和T’中的空字符除去后所得到的序列分别为S和T; 联配A的分值Score为: 全局联配(2)-原始算法    输入:序列S和T,其中 | S | = | T | = n  输出:S和T的最优联配  for i=0 to n do         for  (S的所有的子序列A,其中| A | = i ) do               for (T的所有的子序列B,其中| B | = i ) do                     …… 全局联配(3) 动态规划DP(Dynamic Programming) Smith-Waterman 算法 计算出两个序列的相似分值,存于一个矩阵中。(相似度矩阵、DP矩阵) 根据此矩阵,按照动态规划的方法寻找最优的联配序列。 全局联配(4) 前提条件    递归关系 全局联配(5) 在得到相似度矩阵后,通过动态规划回溯(Traceback)的方法可获得序列的最优联配序列 。  例: S = “a c g c t g”和T = “c a t g t”          
                您可能关注的文档
- 金昌金川万方实业有限责任公司综合厂安全生产标准化二级 - 金川集团.doc
- 抽油机塔架的有限元建模及分析 - 应用力学学报.pdf
- 垂直bridgman 法生长caf 单晶传热过程的数值分析.pdf
- 生态交通示范区规划交通局创意小组 - 2017生态交通全球盛典.pdf
- 兰宝光纤传感器lanbao catalog_optical fiber sensors 201602.pdf
- 生态建筑 - 河北省工程勘察设计咨询协会.pdf
- 高炉炉衬厚度检测技术性能分析与改进算法研究 - 中国测试.pdf
- 水飞蓟粕蛋白酶解物抗氧化稳定性研究 - 林产化学与工业.pdf
- 生态永续的意义.ppt
- a 车辆防撞安全设计.doc
- 具有超晶格应力调制结构的绿光ingan/gan多量子阱的 - 发光学报.pdf
- 生物技术、生物信息 - hm8kcom.ppt
- 气动载荷影响下的高速列车车体疲劳强度评估方法 - 交通运输工程学报.pdf
- 生物技术专业绿色实验教学模式的探索与实践 - 安徽农业科学.pdf
- 生物技术推动着二十一世纪产业革命(the productive revolution in .ppt
- 岩浆镍铜铂族矿床成矿过程中流体 - 中国工程科学.pdf
- 生物矿化原理与木材纳米结构复合材料 - 林业科学.pdf
- 珠海淇澳岛无瓣海桑人工林更新幼苗种群特征 - 广州大学学报(自然 .pdf
- 并行缓冲控制器的模块级数据流结构设计 - 电子设计工程.pdf
- 参数计量方法 - 国立嘉义大学.ppt
 原创力文档
原创力文档 
                        

文档评论(0)