- 1、本文档共31页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
bioperl中文指南概要1
Bioperl操作指南
camelbbs@
Bioperl为许多经典的生物信息学程序提供了软件模块,这些包括:
从本地或远程数据库获取数据;
转换数据库或文件记录的格式;
操作单个序列;
搜索相似序列;
创建和进行序列比对;
搜索基因组上的基因及其它结构;
发展机器可读的序列注释;
下面的章节将描述bioperl怎样执行这些任务;
III.1从本地和远程数据库中获取数据
bioperl主要集中于序列操作,但是在用bioperl操作序列之前,需要获取序列数据。现在你可以直接将序列数据输入到bioperl的Seq对象,例如:
$seq = Bio::Seq-new(-seq = actgtggcgtcaact,
-desc = Sample Bio::Seq object,
-display_id = something,
-accession_number = accnum,
-alphabet = dna );
然而,在大多数时候,从在线文档及数据库中获取序列更优越。注意在生物信息学的传统叫法中有时候被称作“数据库”的很可能是一个“索引平台文件”。
Bioperl支持远程数据获取,也可为访问本地数据库创建索引。有两个普通的方法完成这个。如果你知道序列储存在什么样的数据库中(例如文本文件、本地关系型数据库或一个internet上可访问的远程数据库),你可以写一个脚本特定地从这些数据库中获得数据。这种方法将在III.1.1 节和III.1.2节中描述,这两节分别讲如何从远程数据库和本地的索引平台文件中获取数据。明确地从本地关系型数据库中获取序列数据需要安装和设置bioperl-db库和BioSQL计划中的模块,更多介绍可见IV.3节。
另一个方法是使用最近发展起来的OBDA(Open Bioinformatics Data Access)注册系统。使用OBDA可以从一个数据库中输出序列而不需要知道可访问的数据库是平台文件还是关系型,甚至不管它是本地的还是仅能从网上获得的。关于怎样安装必须的注册配置文件和获取序列数据已在doc/howto中的BIODATABASE_ACCESS中叙述,这里不再重复。
III.1.1 获取远程数据(Bio::DB::GenBank等)
Bioperl可以直接从主要的分子生物学数据库中获取序列数据。数据可以通过序列的获取号或id来获得。还可以进行批量获取以方便地获取多重序列。例如,从genbank中获取数据的代码如下:
$gb = new Bio::DB::GenBank();
# this returns a Seq object :
$seq1 = $gb-get_Seq_by_id(MUSIGHBA1);
# this returns a Seq object :
$seq2 = $gb-get_Seq_by_acc(AF303112);
# this returns a SeqIO object :
$seqio = $gb-get_Stream_by_id([J00522,AF303112,2981014]);
更多信息见III.2.1关于使用SeqIO对象。
Bioperl当前支持从genbank,genpept,Refseq,swissprot和EMBL数据库中获取序列数据。更多信息见 Bio::DB::GenBank manpage, the Bio::DB::GenPept manpage, the Bio::DB::SwissProt manpage, the Bio::DB::RefSeq manpage 和the Bio::DB::EMBL manpage。用户可以为一个数据库指定不同的数据库镜像--特别相关的是SwissProt资源有许多ExPaSy镜像。还有一些为那些后台防火墙指定本地的代理服务器的配置项。
获取NCBI RefSeqs序列可以通过一个叫Bio::DB:RefSeq的特定模块来查询EBI服务器。使用之前可以参考Bio::DB::RefSeq manpage,有一些关于获取RefSeq的告诫。RefSeq在Genbank中的id一般是以NT_, NC_, NG_, NM_, NP_, XM_, XR_, orXP_开头
(更多信息见/LocusLink/refseq.html)。
严格来说Bio::DB:GenBank可被用来获取与这些id一致的
文档评论(0)