用BLAST发现新基因2.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
用BLAST来发现新基因 发现新基因 所谓发现新基因是指在数据库中发现的一些还没有被注释的DNA序列。例如会为下面这些理由去寻找新基因。 ①可能会在一个感兴趣的特殊物种中(如植物或者古细菌)想研究一个以前从未发现过的蛋白质( 如lipocalin )。 ②想知道是否细菌也有lipocalin蛋白质。如果这样,就可以深入了解这个转运蛋白质家族的进化 ③正在研究HIV pol蛋白质,尤其是它的逆转录酶区域。你想在真核生物蛋白质中找到这个区域的例子,但不想研究一个已知有这个motif的真核生物蛋白质,而更愿意去研究一个从来没有描述过的新蛋白质。 常用方法 具体操作 步骤一:选择一条已知蛋白序列。 搜索最好在一个有EST、基因组序列或者其他DNA序列的数据库中进行。一般在酵母、大肠杆菌或其他那些DNA或者蛋白质非冗余的数据库中搜索的结果都不是特别有效,这是因为上面这些数据库中的序列都较好地被注释了,所以也就很难再找到新基因了。 在NCBI的数据库中搜索最近提交的蛋白质序列,可增大发现新基因的可能性。 选择“search Protein” for “lipocalin(脂钙蛋白)”,并在limits里将限制条件“Published in the last 30 days”,选择一条搜索到的蛋白质序列。例如选取的是ACCESSION 为 ZP序列。 如图1和图2: 步骤二:将选择的蛋白质序列用tblastn进行搜索。 这个搜索的目的是为了找到与lipocalin相关的蛋白质。据预测,在一些没有完成测序的基因组中有一些没有被发现的基因可编码蛋白。 很可能出现以下3种结果: 1.在一些数据库中得到的结果完全匹配或者几乎完全匹配。这就不是新发现了。 2.一些数据库的结果也非常匹配,而该数据库中编码这些蛋白质的DNA还没有被注释过。这种情况可能是新基因。 3.一些搜索结果并不是非常匹配。这就需要依靠经验来判读哪些数据库中的匹配是真正的匹配,哪些不是。 这里用了“其他真核生物”基因组BLAST站点,输入蛋白质识别号ZP将程序设为blastn,其他参数设置见图。 搜索的结果就是一组和细菌查询序列非常匹配的预测蛋白质,其中之一就是Acyrthosiphon蛋白质。如图 步骤三:用数据库搜索来判断它是否是真的新蛋白质。 用Acyrthosiphon蛋白质进行blastp搜索的结果表明它和其他一些细菌lipocalin蛋白质相当近源,但它在GenBank数据库中还没有被注释过。 算法:这个Acyrthosiphon的蛋白质被预测是由一个基因组DNA片段来编码的。拷贝Acyrthosiphon蛋白质序列,为了判断它是否是一个“新”蛋白,我们将其作为输入项在一个非冗余数据库中进行blastp搜索。如图 出现结果后,我们需要搜索比对后的结果中是否有和Acyrthosiphon同样的蛋白。见图 步骤四:结论 根据blastp的搜索结果, Acyrthosiphon是一个新的lipocalin蛋白。这样,这种搜索方法能够成功地在一个物种中找出一个没有注释也没有在GenBank数据库中储存的lipocalin蛋白。 查询该蛋白的FASTA格式就可找到该蛋白的编码基因。见图。 BLAST搜索新基因方法讨论 ⑴.对于新基因的寻找,首要是在于起始蛋白的选择。选得不好,可能在尝试许多次之后,发现自己仍不能找到新的基因。为此,选择最新一期杂志文章上公布出来的某种蛋白,或者某种病毒,可能更易成功。熟悉NCBI网站上的几种BLAST检索比对工具,理解搜索结果的统计学意义以及预测的可信度等,也能帮助加快搜索速度。但鉴于不同网站提供同一类型的服务时,基于不同的实现方法,且这些方法大都根据不同的数据集构造并测试,我们很难客观地评判各种方法的优劣。因此,只使用一种特定的方法有许多不利之处,遵循统计学的“平均结果优于单一选择”这一原则,可以综合各种方法以提高结果的鲁棒性和可信性。由此,可以将我们寻找得到的新基因,到欧洲分子生物学实验室(EMBL)的EBI数据库进行FASTA检索比对,能够进一步地确认我们所找到的基因序列是否是一条新的基因序列。 ⑵.实际上,对于一个未知的基因序列,鉴定是否是个新基因序列,几乎所有的BLAST工具都可以做到。但不同的BLAST工具在使用时,仍然有侧重点。就核苷酸序列而言,由于标准的BLAST工具采用的缺省“段”字长要比megablast小,因此在搜索相似性时更敏感,换句话说,如果搜索的目的侧重于相似性,那么应该使用blastn工具。而megablast更适用于较长序列的鉴定,它的好处在于速度较快。 ⑶.大多数情况下,按照BLAST的默认参数进行相似性的搜索能够获得较为理性的结果。但仍有必要通过改变

文档评论(0)

好文精选 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档