真核生物基因及翻译起始点的识别.pdf

摘要 自从人类基因组计划实施以来,大量人类及其它模式生物的DNA序列已被测定, 这些序列急需被准确地标定。由于实验测定基因的能力远落后于DNA的测序速 度。现阶段,基因组的标注主要依赖非实验的方法。基因识别的主要目的是从这 些DNA序列中提取生物信息,发展优秀的基因识别算法来标注这些序列。在基 因识别领域,二个最基本的问题是识别蛋白质编码区和基因的功能位点,这两个 问题还没完全被解决。本文主要致力于研究这两类识别问题的算法。 本文的内容由四部分组成。 第一部分(第一章)介绍生物信息学的发展过程,生物信息学的主要研究课 题。在此基础上,详细介绍基因识别算法发展的不同阶段。最后,介绍本文的主 要研究成果及创新点。 第二部分(第二、三章)讨论真核基因的结构、组分以及用于基因识别的生 物信息,这些信息包括蛋白质编码区、非编码区、翻译起始点、剪接点、终止密 码子及基因不同区域的长度分布等特性。 第三部分(第四、五、六、七、八章)提出几种基因识别领域的算法。第四 章讨论蛋白质编码区识别问题。本章首次提出终止密码子统计学,并利用该统计 特征构造识别变量,对于较短的人类蛋白质编码区序列进行识别,结合其它统计 特征,对长度为192碱基的序列,识别正确率达到92.1%,和最著名的同类算法 相比,该算法具有更高的识别率。第五章讨论真核基因翻译起始点的识别问题。 通过对翻译起始点附近较短的旁侧序列进行分析,构造出识别翻译起始点的识别 变量。首次将基于不完整数据的EM算法引用到基因识别的分类问题上,对真核 基因翻译起始点的识别率达到87.7%。与同类算法相比,该算法对真核基因翻译 起始点的识别率是最高。考虑基因结构特征,第6章讨论真核基因第一外显子的 识别问题。首次提出识别基因第一外显子的协同扫描模型,该模型充分利用基因 的3’剪接点及内部编码区的特征对哺乳动物多外显子基因的第一外显子进行扫 描与识别。识别正确率达到最著名的全基因识别算法的水平。第7章讨论蛋白质 编码区在进化过程中保守性的问题。考虑蛋白质编码区低含量碱基的分布及终止 密码子的特征,首次提出在蛋白质编码区进化过程中,在三相位上碱基分布所遵 循的内部选择模式,并从不同角度对该问题进行深入地讨论。第8章讨论完整真 核基因的识别问题。通过对第一外显子、内部外显子和最后外显子识别算法的组 合,提出一种识别完整基因的组合模型算法。虽然,该算法的识别率尚需提高, 但该算法已具备识别基因的结构的完整体系。改进 最后部分(第九章)首先对上述工作进行简单的概述,提出基因识别领域一 些尚未完全解决的问题,并对生物信息学的发展作了展望。 关键词:人类基因组、基因、蛋白质编码区、翻译起始点、第一外显子、内部外 显子、最后外显子、终止密码子、EM算法 Abstract Genome amountof Withthe oftheHuman great progress Project(HGP),a quick datahasbeenaccumulated.At unannotatedhumanandother DNA organism present, themaintasksin aretoextractnewcharacteristicsofthe gene sequences recognition andto better for in the developalgorithmscopiousannotation.Difficultyrecognizing andthefunctiomdsitesof

文档评论(0)

1亿VIP精品文档

相关文档