如何做序列的blast分析剖析.ppt

如何做序列的blast分析剖析

* 如何做序列的BLAST分析 * 内容提要 Blast简介 Blast相关问题 Blast的应用 示例 Blast简介 BLAST 是NCBI中用来将一个蛋白质或DNA序列和各种数据库中的其他序列进行比对的主要工具。 BLAST搜索是研究一个蛋白质和基因的最基本的方法之一。 Blast具有非常广泛的运用 确定特定的蛋白质或核酸序列有哪些已知的直系同源或旁系同源序列 确定哪些蛋白质和基因在特定的物种中出现 确定一个DNA或蛋白质序列身份 发现新基因 确定一个特定基因或蛋白质有哪些已经发现了的变种 研究可能存在多种剪切方式的表达序列标签 寻找对于一个蛋白质的功能和/或结构起关键作用的氨基酸残基 * 主要的blast程序 * * 主要的blast程序 程序名 查询序列 数据库 搜索方法 Blastn 核酸 核酸 核酸序列搜索逐一核酸数据库中的序列 Blastp 蛋白质 蛋白质 蛋白质序列搜索逐一蛋白质数据库中的序列 Blastx 核酸 蛋白质 核酸序列6框翻译成蛋白质序列后和蛋白质数据库中的序列逐一搜索。 Tblastn 蛋白质 核酸 蛋白质序列和核酸数据库中的核酸序列6框翻译后的蛋白质序列逐一比对。 TBlastx 核酸 核酸 核酸序列6框翻译成蛋白质序列,再和核酸数据库中的核酸序列6框翻译成的蛋白质序列逐一进行比对。 * 具体步骤 1. 登陆blast主页 /Blast.cgi 2. 根据已有序列类型和搜索目标,选择合适的blast程序 Blastn,Blastp,Blastx等 3. 填写表单信息 选择要搜索的数据库,并修改一些可选参数等 4. 提交任务 5. 查看和分析结果 具体步骤 输入要分析的序列 * NP_006735 三种主要的输入方式 剪切然后粘贴DNA或蛋白质序列 使用FASTA格式的序列 简单地使用索引号码(如一个RefSeq 或GenBank (GI)的序号) 具体步骤 选择要搜索的数据库 (blastp) * 去冗余GenBank编码序列PDB + SwissProt + PIR + PRF Nr数据库 合并了若干个主要的蛋白质 或DNA数据库 数据库有相同的序列,但nr 数据库只收录一个 典型和常用的数据库 具体步骤 选择要搜索的数据库(blastn) * 具体步骤 调整可选参数 1. Limit by Entrez Query * 可以用任何一种范围限定词 来限定NCBI BLAST搜索的范围 具体步骤 调整可选参数 2. Max target sequences:比对之后显示的最大的比对序列的数目 * 具体步骤 调整可选参数 3. Expect threshold:期望值E是得分大于或等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。 * 默认值是10,表示随机出现得分等于 或高于比对得分S的期望数为10个。 当将期望选项值调小时,返回的数据 库搜索结果将变少,匹配被搜索到的 概率也会变小。 增大E值将返回更多的结果。 具体步骤 调整可选参数 4. Word size(字段长度) * 蛋白质搜索,默认值是3 核酸序列搜索,默认值是11 改变字段长度可以影响搜索 精度和速度 具体步骤 调整可选参数 5. Matrix (打分矩阵) * 在一次BLAST搜索中,可以尝试使用几种不同的打分矩阵 高PAM值取代矩阵适合于差异较大的序列 低BLOSUM62值的取代矩阵适合于差异较大的序列 具体步骤 调整可选参数 6. Compositional adjustments,默认选择,一般来说可改善E值的统计计算和提高灵敏度(减少返回的假阳性结果的数目) * 具体步骤 调整可选参数 7. Filter (选择性过滤条件), 过滤器将锁定诸如组成低复杂序列区(如Alu序列),用一系列N(任意碱基)替代这些程序 * 过滤对绝大多数序列是有利的, 可以帮助避免那些假的数据库匹配 但某些情况下可信的匹配也会过滤掉 具体步骤 Blast输出结果 上部 BLAST搜索的类型、关于查询内容和所搜索的数据库的描述以及一个分类连接可以将结果按照物种进行分类 中部 数据库中序列与查询序列相匹配的项的列表,分为图像和列表两种描述方式 下部 一系列的两两序列比对, 4种衡量的分数:比特分数、期望分数、一致性百分比、正性(相似性百分比) * 具体步骤 Blast输出结果 * database program query taxonomy 具体步骤 Blast输出结果 * 每一个条带表示数据库中的

文档评论(0)

1亿VIP精品文档

相关文档