序列比较.docVIP

下载本文档

28
0
约1.75万字
约 16页
2017-01-17 发布于天津
举报
版权申诉

序列比较.doc

1、本文档共16页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

序列比较

7、比对的统计学显著性对于任何序列比对，我们可以计算其相似性得分，但重要的是需要判定这个分值是否足够高，是否具有显著意义（Karlin and Altschul，1990； Alexandrov and Solovyev，1998），是否能够提供进化同源性的证据。由于随机因素的影响，非同源的序列也可能具有较高的相似性得分。不幸的是，没有一种数学理论方法描述全局序列比对的期望得分的分布，无法直接分析统计显著性，需进行间接分析。下面介绍几种显著性检验的方法（王槐春，1994）。序列相似的显著性检验的典型方法是将两条待比较的序列分别随机打乱，再使用相同的程序与打分函数（或打分矩阵）进行比对，计算这些随机序列的相似性得分。重复这一过程（通常为50?100次），得到随机序列比对得分的正态分布曲线，用?和?分别表示其平均值与标准差。设原来两条序列的比对得分为x，利用下式计算大于或等于x的比对得分概率： z = (x - ?)/? (3-32) z值的单位为SD。根据正态分布，当z值为3.1、4.3和5.2时，相似性得分为x的随机出现概率分别为10-3、10-5和10-7。可以根据z值判断两个序列相似得分的显著性。一般假定当z值大于5时，两条被比较的序列在进化上是相关的；当z值在3?5之间时，如果两者有其他方面相似的证据（如功能相似），则两条序列也是同源的；如果z值小于3，则表示两条序列不同源。许多序列比较软件都带有计算z值的程序，可直接用于评价序列比对的显著性。判断两条序列比对显著性的另一个常用方法是分析其中的一条序列（称为靶序列）对数据库检索的相似性得分的分布情况，即所检测出的其他类似序列的个数与得分大小，并根据结构域或功能的有无设立阳性对照和阴性对照。如果靶序列所检出序列的分布状态与阳性对照序列的检测结果相近，而阴性对照序列不能或仅检出很少有关的序列，则可以断定要比较的那两条序列的比对结果是有统计意义的。这种方法称为相似性得分分布分析方法，常用于数据库相似性检索的显著性评价，可以确定一些微弱的序列相似性的显著性。 karlin和Altschul(Karlin and Altschul, 1990)提出一种基于概率论的显著性分析方法，他们推导出一个精确的公式，计算两条序列比对得分大于两条随机序列比对得分的概率。根据这一公式，比对得分是将第一条序列的任意一个片段与第二条序列的任意一个片段进行比对的最高得分（比较过程中不引入空位），称为最大片段得分，比对的片段称为高得分片段对（HSP）。HSP通常用改进得Smith-waterman算法或简单地使用大的空位罚分方法获得。 Karlin-Altschul的计算公式如下： P(Sx) = 1- exp(-Ke-?x) (3-33) 其中P(Sx)是最大片段得分大于x的概率，K和?是两个参数，它们的值取决于打分函数和序列中各种字符出现的频率。该方法只限于不引入空位的序列比较得分的显著性计算。把一个已知得比对分值S同预期的分布相关联可以计算出P值，从而给出这个分值的比对显著性。通常，P值越趋近于零，分值越有意义。把比对局限于没有空位的基础之上，使问题大大简化，但是却脱离分子生物学的实际情况。要建立一个插入和缺失的精确模型需要引入空位，但如果空位相对较少，在这些空位之间仍然可以获得高分值区域，有代表性的是可能会获得紧密相邻的HSP。在这种情况下，从总体上去评估它的显著性是较为合理的，也许，每个片段并不显得很重要，但是几个片段同时出现就不太像是偶然事件了。Karlin-Altschul加和统计学可以计算N个HSP的统计值，这个方法的实质是把N个最佳片段的分值进行加总，从而计算事件偶然发生的可能性，其它一些论据也被用来确认这些分值只是在片段与比对一致的情况下进行加总。虽然加总的分值分布与HSP分值最大值有差异，仍然可以得到解析解。上述几种方法需要经过计算才能进行显著性的判断，有经验的专家往往能够直接进行显著性判断。Doolitter（Doolittle, 1987）提出如下的经验法则： ① 如果两个序列的长度都大于100，在适当地加入空位之后，它们配对的相同率达到25%以上，则两个序列相关； ② 如果配对的相同率小于15%，则不管两个序列的长度如何，它们都不可能相关； ③ 如果两个序列的相同率在15%?25%之间，它们可能是相关的。第三节序列多重比对与序列两两比对不一样，序列多重比对（Multiple Alignment）的目标是发现多条序列的共性。如果说序列两两比较主要用于建立两条序列的同源关系和推测它们的结构、功能，那么同时比较一组序