序列相似性比较优秀培训书.ppt

下载文档 降价啦

16
0
约1.69万字
约 105页
2017-02-10 发布于江苏
举报
版权申诉
保障服务

序列相似性比较优秀培训书.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

序列相似性比较优秀培训书

第三章序列相似性比较主要内容：序列比对相关概念相似性(similarity) 一种很直接的数量关系，比如部分相同或相似的百分比或其它一些合适的度量。比如说，A序列和B序列的相似性是80％，这是个量化的关系。相似与同源两者区别同源序列一般相似，序列间的相似性越高，它们是同源序列的可能性就更高，所以经常可以通过序列的相似性来推测序列是否同源。相似序列不一定同源（趋同进化）序列比对衡量标准序列比对问题序列比对问题序列比对问题序列比对问题序列比对问题核酸计分矩阵 —— 等价矩阵 —— BLAST矩阵 —— 转移矩阵（transition，transversion）氨基酸计分矩阵 —— 等价矩阵 —— 遗传密码矩阵 —— 疏水矩阵 —— PAM矩阵 —— BLOSUM矩阵序列较多的家族有很多关系很近的序列，比较时一些保守氨基酸对的出现过于频繁，偏离真实性。对于同一block的相近序列，一致性高于某个阈值便聚为一类，通过序列合并减少权重。 PAM100 PAM120 PAM140 PAM160 PAM200 PAM250 PAM与BLOSUM矩阵差异双序列比对算法双序列比对所遇到问题双序列比对解决方法用矩阵路径描述序列对齐动态规划: 分值计算动态规划: 分值计算动态规划: 分值计算动态规划: 分值计算动态规划: 分值计算 Needleman-Wunsch 算法: 举例 Needleman-Wunsch 算法: 举例 Needleman-Wunsch 算法: 举例 Needleman-Wunsch 算法: 举例 Needleman-Wunsch 算法: 举例 Needleman-Wunsch 算法: 举例 Needleman-Wunsch 算法: 举例 Needleman-Wunsch 算法: 举例 Needleman-Wunsch 算法: 举例 Needleman-Wunsch 算法: 举例 Needleman-Wunsch 算法: 举例练习序列全局和局部比对序列局部比对（Smith-Waterman 算法） Smith-Waterman 算法: 举例 Smith-Waterman 算法: 举例 Smith-Waterman 算法: 举例 Smith-Waterman 算法: 举例 Smith-Waterman 算法: 举例 Smith-Waterman 算法: 举例 Smith-Waterman 算法: 举例 BLAST序列比对工具 BLAST BLAST算法 BLAST算法——创建检索词表 BLAST算法——创建检索词表 BLAST算法——创建检索词表 BLAST算法——搜索数据库 BLAST算法——匹配字段延伸 BLAST比对结果显著性统计数据库检索: E-values in BLAST 数据库检索: E-values in BLAST E值检索包含10,000条序列的数据库，99.9% 分布区域分值低于112，这就意味着在随机情况下，检索包含10,000条序列的数据库时，可以期望0.1% * 10,000 = 10 个比对结果的分值等于或高于112。 10 就是检索结果分值112的期望值（E Value）。一随机序列与一个随机序列数据库中所有序列比对计分，所得相似性分值符合极值分布 E Value=随机情况下期望得到的比对结果数 E 值越小比对结果显著性越好。一般情况，用BLAST进行数据库检索时，E-value设定为10-5较为合适。这意味着在随机情况下，只有十万分之一的可能在数据库中找到与检索序列匹配的序列。 E 值取决与比对分值、相比较序列的长短和数据库中数据的数量 E=0.041*1778650306*34*e -0.267*378 =3.7×10 -35 计分矩阵 PAM30 PAM70 BlOSUM80 BlOSUM62 BlOSUM45 75 45 40 30 20 相似程度计分矩阵序列进化关系远近与计分矩阵选择氨基酸相似性氨基酸一致性 Identity: 两条序列在同一位点上的核苷酸或氨基酸残基完全相同 Similarity (positive): 两条序列在同一位点上的相似的氨基酸残基(计分矩阵中两残基的分值大于0) 低复杂度序列：核苷酸和蛋白质序列中短的重复序列或由少数几种核苷酸或氨基酸残基组成的序列（如 Poly-A）数据库中半数以上的序列至少带有低复杂度序列序列比对时应避免低复杂度序列相互配对得分 filtering H E A G A W G H E - E - - P - A W - H E