5.2蛋白质的二级结构-02-PDB获取.pdf

《生物信息学》第五章:蛋白质结构预测与分析(第一部分) 蛋白质的二级结构:PDB 获取 PDB 数据库中,一个蛋白质结构记录中的二级结构信息在 Sequence 标签下(图 1)。从 序列图形化部分可以看到二级结构对应在一级结构上的图形化表示。点击左侧的“View Sequence DSSP Image”可以获得直观的一级结构对二级结构的序列表示(图 2)。图 2 中的 序列有两行,上面的一行是一级结构,下面的是二级结构。这个页面看上去很不错,序列 10 个字母一间隔,50 个字母一行,而且不同的二级结构还对应不同的字母颜色。但是在接 下来的分析研究工作中,我们往往需要的是像氨基酸序列那样的 FASTA 格式的二级结构序 列。想要从这个网页上单独保存下二级结构序列是很麻烦的事儿。需要一行一行的拷贝黏贴, 还需要删除行号。有位困难的是去除其中的空格,因为很难区分是格式里的空格还是代表松 散结构的空格。所以,这种形式的二级结构信息便于浏览,但是不便于保存。非常遗憾的是, PDB 里没有现成的针对某一个蛋白质的 FASTA 格式二级结构序列下载链接。“Download FASTA File”链接只能下载 FASTA 格式的一级结构序列,也就是氨基酸序列。 图 1. PDB 数据库图形化二级结构和 DSSP 文件下载链接 图 2. PDB 中的一级结构序列和二级结构序列对应图 此外,PDB 数据库中有一个叫做“ss.txt”的文件:/pdb/files/ss.txt.gz (压缩文件 30.6M)。这个文件里面有 PDB 所有蛋白质结构的一级和二级结构的 FASTA 格式 序列。但是这个文件非常大!仅仅打开文件就要耗费许久时间,使用起来相当的不方便。那 难道就没个方便快捷的好办法,可以一下子拿到某一个蛋白质的二级结构序列吗?当然有。 你可以用老师我自己编写的小程序 8/~gongj/biotools/(图 3)。只需要输入 PDB ID,程序就会自动下载相应的 DSSP 文件,并从中抽取出一级和二级结构的序列信息, 最后以 FASTA 格式输出。 图 3. BioTools 二级结构自动获取工具

文档评论(0)

1亿VIP精品文档

相关文档