基于分块的单体型推导算法及缺失问题分析-block - based haplotype derivation algorithm and analysis of missing problems.docxVIP

下载本文档

26
0
约4.12万字
约 54页
2018-05-18 发布于上海
举报

基于分块的单体型推导算法及缺失问题分析-block - based haplotype derivation algorithm and analysis of missing problems.docx

基于分块的单体型推导算法及缺失问题分析-block - based haplotype derivation algorithm and analysis of missing problems

第1章绪论1.1研究背景及意义“基因组学”（genomics）一词是由ThomasRoderick在1986年提出，用于定义关于基因组（genome）作图，测序和分析的学科。1989年，国际人类基因组织（HUGO）成立，使得人类基因组测序和绘图在全球范围内进一步合作，基因组学成为了人类对生物研究的重要环节。Lockhart（2000）和Collins（2003）分别在《Nature》上发表了两篇文章涉及到了基因组学，前一篇指出大量DNA数据的出现但是缺乏足够的研究分析，而基因组学出现的意义在于对生物进行深入的了解；后一篇对基因遗传的历史进行了回顾，从社会、健康和生物三个方面说明基因组学对人类具有非常重要的意义。孟德尔在1865年提出孟德尔遗传定律，就涉及到有关基因的概念，现代生物学中发现DNA分子在细胞中作为基因的载体，细胞通过DNA来转录和翻译成不同功能的蛋白质，并复制遗传到下一代，各种先天性遗传疾病都与DNA有关。通过分析DNA序列，我们可以发现不同人种之间的DNA的差异，特殊人群的免疫疾病基因，因此DNA序列对基因组学的研究具有很重要的意义。二十世纪末到二十一世纪初，人类共实施了两大基因组学相关的计划。1990年开始的“人类基因组计划（HumanGenomeProject，HGP）”（孙啸等，2005），被称为二十世纪科学史上三个里程碑之一，先后有许多国家进行了相关的研究，中国也承担并完成了1%的测序任务，该计划目标是完成全人类染色体的基因作图，DNA全长序列的分析，基因的鉴定和相关功能分析。2002年，美、加、中、日、英、尼日利亚等国研究机构又发起了国际人类基因组单体型图计划（TheInternationalHapMapProject），取样于多个人种，首先鉴定DNA样品中的单核苷酸多态性（SNPs），然后组合群体中频率大于1%的共同遗传的相邻SNP位点成单体型，最后在单体型中找出标签SNPs用于识别这些单体型。由此，基因组学的研究进一步系统化，基因的数据规模也随着研究的深入不断增大。权威的基因数据库共有3个，欧洲分子生物学实验室EMBL，美国生物技术信息中心GenBank和日本遗传研究所DDBJ，他们互相合作，数据基本相同，图1.1列出了EMBL数据库近30年来核苷酸数据的增长，到2010年11月22日共保存了301,588,430,608个位置的数据。海量的数据不仅复杂而且之间存在着紧密的联系，仅仅依赖于人工的分析已经无法满足研究的需要。计算机方法的引入，使得短时间内高效准确得处理海量数据成为可能。具体来说，基因组学包括结构基因组学和功能基因组学，功能基因组学研究的课题包括：人类基因组DNA序列变异性研究、基因组表达调控的研究、模式生物体的研究和生物信息学的研究等。随着基因研究的深入和基因技术的发展，基因的数据类型和规模都会发生改变，新的课题也不断出现，也需要不同的数学模型和产生新的更高效的计算机算法来解决这些问题。图1.1EMBL核苷酸数据的增长1.2研究现状在基因组学研究中，单体型和基因型数据的相关研究占了大多数，研究的主要问题包括：单体型推导、单体型频率估计、单体型分块、补缺、SNP位点标记和单体型装配等。以下将对本文涉及的单体型推导和补缺两个方面的研究现状进行陈述。1.2.1单体型推导模型与算法单体型（haplotype）作为基因的片段，可以作为研究特定疾病的依据，或者进行物种之间相似性的比较，然而自然世界中的绝大多数生物是双倍体的，实验中较容易获得的也是两条单体型的组合数据，即基因型（genotype）。为了架起单体型和基因型之间的桥梁，单体型推导问题成为了基因研究中的一个基本问题，基于群体基因型数据和简约性原则，Clark（1990）最先提出了单体型推导算法。该算法从可以直接获得的单体型开始，逐步与未知单体型对应的基因进行匹配，获得更多的单体型。但是该算法存在三个问题：一是算法会因为因为无法获得初始的确定单体型而无法启动；二是算法结束的时候，仍然可能存在没有被鉴定出来的单体型；三是算法会因为没有考虑到染色体在遗传过程中发生交叉而生成错误的单体型。D.Gusfield（2002）1提出了完美进化树(PerfectPhylogenyHaplotyping，PPH)模型，该模型有两个假设：没有重组和位点数无限，对应的算法使得基因分型后产生的单体型构成一棵有根或无根的进化树，但仍然没有解决需要单体型启动和存在未被鉴定出来的单体型的问题。同年，D.Qian和L.Beckmann（2002）首先形式化了家系数据集上的最少重组单体型推导(MinimumRecombinationHaplotyping，MRH)模型，该模型将遗传中基因重组次数最少可能是合理的假设融入到模型中。在单体型推导的组合算法发展的同时，基于统计的

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于分块的单体型推导算法及缺失问题分析-block - based haplotype derivation algorithm and analysis of missing problems.docxVIP