谈谈对基因组内不同序列分布差异进行量化的探讨.docVIP

  • 35
  • 0
  • 约4.92千字
  • 约 10页
  • 2017-02-21 发布于河北
  • 举报

谈谈对基因组内不同序列分布差异进行量化的探讨.doc

谈谈对基因组内不同序列分布差异进行量化的探讨

谈谈对基因组内不同序列分布差异进行量化的探讨   基因组常被比喻为一本“生命天书”,如果有几个关键词在书中出现的位置比较接近,则其关系可能比较密切。反之,若其出现的位置具有明显差异,则其可能关系较远。如果把序列看作是基因组内的关键词,则序列在基因组上出现的位置差异则可能说明这些序列之间的功能差异。如果两个重复序列在同一基因组上的分布相同,则说明这些序列之间可能有非常密切的关系。如果不同,则可以通过分布一致性检验来判断其差异是否具有统计学意义。当其差异具有统计学意义时,我们一般很想知道其差别到底有多大,以此来推断两者之间功能的差异。由于P 值受样本含量的影响,其大小难以反应分布之间的差异,因此需要寻找一个合适的指标对分布差异进行量化。相对熵( relativeentropy ),又称KL 散度( Kullback-Leibler divergence),是衡量不同分布之间差异的常用方法。但其有两个缺陷:①当计算的顺序不一样时,其结果不同;②对于定量数据,一般需将抽样数据进行适当分组再计算,而分组会损失一部分样本信息。Kolmogorov-Smirnov 检验(KS 检验) 一般用于两种分布之间是否有差异的假设检验。该方法完全避免了相对熵计算所存在的两个缺陷。那么是否可以利用KS 检验的统计量对分布之间差异进行量化呢?另外,不同的分布具有不同累积概率曲线,而图心(centroi

文档评论(0)

1亿VIP精品文档

相关文档