如何进行序列分析教程.ppt

数据库搜索的基础是序列的相似性比对,即双序列比对(pairwise alignment)。 新测定的、希望通过数据库搜索确定其性质或功能的序列称作检测序列(probe sequence);通过数据库搜索得到的和检测序列具有一定相似性的序列称目标序列(subject sequence)。 为了确定检测序列和一个已知基因家族之间的进化关系,在通过数据库搜索得到某些相似序列后,还需要判断其序列相似性程度。如果检测序列和目标序列的相似性程度很低,还必须通过其它方法或实验手段才能确定其是否属于同一基因家族 比对统计学意义的评价--E值(E-Value) P值(P-Value)(概率值) BLAST程序中使用了E值而非P值,这主要是从直观和便于理解的角度考虑。比如E值等于5和10,总比P值等于0.993和0.99995更直观。但是当E0.01时,P值与E值接近相同 参数K和λ可分别被简单地视为搜索步长(search spacesize)和计分系统(scoring system)的特征数 BLAST和FASTA数据库搜索策略 一种思路是把数据库中的所有蛋白序列与待查序列的关系都视为相同重要,也就是说对于E值均较低的短和长序列,它们是等同重要的。FASTA程序近期版本便是采用这一策略 另一种思路是把长序列视为比短序列更重要,因为长序列往往包括更多

文档评论(0)

1亿VIP精品文档

相关文档