《生物信息学》第五章:蛋白质结构预测与分析(第一部分)
蛋白质的二级结构:PDB 获取
PDB 数据库中,一个蛋白质结构记录中的二级结构信息在 Sequence 标签下(图 1)。从
序列图形化部分可以看到二级结构对应在一级结构上的图形化表示。点击左侧的“View
Sequence DSSP Image”可以获得直观的一级结构对二级结构的序列表示(图 2)。图 2 中的
序列有两行,上面的一行是一级结构,下面的是二级结构。这个页面看上去很不错,序列
10 个字母一间隔,50 个字母一行,而且不同的二级结构还对应不同的字母颜色。但是在接
下来的分析研究工作中,我们往往需要的是像氨基酸序列那样的 FASTA 格式的二级结构序
列。想要从这个网页上单独保存下二级结构序列是很麻烦的事儿。需要一行一行的拷贝黏贴,
还需要删除行号。有位困难的是去除其中的空格,因为很难区分是格式里的空格还是代表松
散结构的空格。所以,这种形式的二级结构信息便于浏览,但是不便于保存。非常遗憾的是,
PDB 里没有现成的针对某一个蛋白质的 FASTA 格式二级结构序列下载链接。“Download
FASTA File”链接只能下载 FASTA 格式的一级结构序列,也就是氨基酸序列。
图 1. PDB 数据库图形化二级结构和 DSSP 文件下载链接
图 2. PDB 中的一级结构序列和二级结构序列对应图
此外,PDB 数据库中有一个叫做“ss.txt”的文件:/pdb/files/ss.txt.gz
(压缩文件 30.6M)。这个文件里面有 PDB 所有蛋白质结构的一级和二级结构的 FASTA 格式
序列。但是这个文件非常大!仅仅打开文件就要耗费许久时间,使用起来相当的不方便。那
难道就没个方便快捷的好办法,可以一下子拿到某一个蛋白质的二级结构序列吗?当然有。
你可以用老师我自己编写的小程序 8/~gongj/biotools/(图 3)。只需要输入
PDB ID,程序就会自动下载相应的 DSSP 文件,并从中抽取出一级和二级结构的序列信息,
最后以 FASTA 格式输出。
图 3. BioTools 二级结构自动获取工具
您可能关注的文档
最近下载
- AIAG-VDA-SPC手册-Yellow-Volume2026年2月第一版 中文.pdf VIP
- 美甲美睫投资回报2026年培训课件.pptx VIP
- 中国王氏家谱字辈大全.doc VIP
- 《Michael_Porter_Creating_Shared_Value》.pdf VIP
- 直播带货虚假宣传法律规制研究.pdf
- 新大洲本田MS01说明书用户手册.pdf
- 餐饮仓库进销存表格,感觉很实用的Excel表格,分享给大家.xls VIP
- (一模)新疆2026年高三普通高考二月适应性检测文科综合试卷.docx
- 2025年欧洲市场中国车企本地化售后服务网点布局报告.docx
- 新建铁路兰新第二双线LXTJ3标段复测成果书.doc VIP
原创力文档

文档评论(0)