生物序列分析中几个典型算法介绍.pdfVIP

  • 10
  • 0
  • 约3.27万字
  • 约 41页
  • 2017-08-16 发布于江西
  • 举报
生物序列分析中几个典型算法介绍.pdf

生物序列分析中几个典型算法介绍 生物信息学研究背景与方向 序列家族的序列谱隐马尔可夫模型(Profile HMMs for sequence families) 模体识别( Motif Discovery ) 刘立芳 计算机学院 西安电子科技大学 背景知识 DNA脱氧核糖核酸 1、DNA的分子组成 核甘(nucleotides) • 磷酸盐(phosphate) • 糖(sugar) • 一种碱基 腺嘌呤(Adenine) 鸟嘌呤(Guanine) 胞嘧啶(Cytosine) 胸腺嘧啶(Thymine) 2、碱基的配对原则 • A(腺嘌呤)—T(胸腺嘧啶) • C(鸟嘌呤)—G(胞嘧啶) 3、一个嘌呤基与一个嘧啶基通 过氢键联结成一个碱基对。 4、DNA分子的方向性 5’→3’ 5、DNA 的双螺旋结构 RNA、转录和翻译 1、RNA(核糖核酸):单链结构、尿嘧啶U代替胸腺嘧啶T、位于 细胞核和细胞质中。 2、转录: DNA链 → RNA链 信使RNA(mRNA),启动子。 3、翻译: mRNA上携带遗传信息在核糖体中合成蛋白质的过程。 变异 1、进化过程中由于不正确的复制,使DNA内容发生局部的改变。 2、变异的种类主要有以下三种: 替代(substitution) 插入或删除(insertion or deletion) 重排(rearrangement) 蛋白质 1、由氨基酸依次链接形成,在生物体中总共有20种氨基酸。 (C,S,T,P,A,G,N,D,E,Q,H,R,K,M,I,L,V,F,Y,W) 2、蛋白有十分复杂的三维结构。其三维机构决定了蛋白质的 功能。 基因 DNA上具有特定功能的一个片断,负责一种特定性状的表 达。一般来讲,一个基因只编码一个蛋白质。 DNA上的基因 基因 intron exon 基因组 任何一条染色体上都带有许多基因,一条高等生物的染色体上 可能带有成千上万个基因,一个细胞中的全部基因序列及其间 隔序列统称为genomes (基因组)。 人类基因组计划 (Human Genome Project ) 基因的编码 1、基因编码是一个逻辑的映射,表明存储在DNA和mRNA中 的基因信息决定什么样的蛋白质序列。 2、每个碱基三元组称为一个密码子(codon) 3、碱基组成的三元组的排列共有43 =64种,而氨基酸共有20 种类型,所以不同的密码子可能表示同一种氨基酸。 分子生物学中心法则 Relationship Between DNA, RNA And Proteins DNA CCTGAGCCAACTATTGATGAA transcription mRNA CCUGAGCCAACUAUUGAUGAA translation Protein PEPTIDE 带来的问题 1、序列排列问题 2、基因组的重排问题 3、蛋白质结构和功能的预测 4、基因(外显子、内含子)查找问题 5、序列装配(Sequence Ass

文档评论(0)

1亿VIP精品文档

相关文档