泊松分布与WGS组装问题.ppt

泊松分布与WGS组装问题 樊伟 二项分布 (Binomial Distribution) 在每一次试验中,都有两种互斥的结果,如成功和失败。每一种结果在每次试验中都有恒定的概率,设成功的概率为?。每次试验之间是独立的,互不影响的。求在n次试验中一种结果(如成功)出现x次的概率? 泊松分布 二项分布中,如果?非常小,并且n非常大,则成为泊松分布。 WGS测序 WGS (Whole Genome Shotgun)测序,就是一个天然的泊松分布过程,包括碱基深度分布,Kmer深度分布,以及reads duplication rate等问题,均可以用泊松分布来解释。 组装过程中的contig个数,contig平均长度等问题,亦可根据泊松分布来进行推导,这就是Lander-Waterman model理论。 碱基深度问题 符合二项分布: 设基因组大小为G, 假定每次试验可从基因组任何位置上随机产生一个碱基。对于基因组上某一个固定碱基位置,在一次试验中,该位置被命中的概率为? (? =1/G)。我们将试验重复n次,相当于产生了n个碱基(n=c*G, c为coverage)。碱基的深度分布,相当于求该位置被命中0次,1次,…,n次的概率各是多少? 符合泊松分布: 1/G非常小,c*G非常大。 拓展开来 Kmer的mapping,符合泊松分布。理解Kmer分布,是理解Kmer de bru

文档评论(0)

1亿VIP精品文档

相关文档