- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
计算质谱学中生物信息学问题及其对策
计算质谱学中生物信息学问题及其对策
随着质谱仪器的快速开发与广泛应用,蛋白质组学的兴起,以及计算机软件与网络技术的普及,质谱技术(Mass Spectrometry,简称MS)在蛋白质组学中的作用越来越受到重视,特别是在蛋白质鉴定、蛋白质相互作用、翻译后修饰和蛋白质定量等方面,已经成为不可或缺的技术工具。目前国际和国内作蛋白质组学研究的实验室基本上都在大量使用质谱技术,且源源不断地产生着大量的质谱数据,发展的趋势将使数据量增长速度更快,这就为从大量质谱数据中如何提取关键信息方面的研究提出了挑战,这是计算质谱学的研究重点。本文就质谱数据的处理或信息分析,从计算的角度,讨论有哪些重大的生物信息学问题及其解决对策。
一、 质谱仪的基本原理
生物质谱仪的基本原理是应用能量守恒定律和电磁学的基本原理,将生物大分子离子化,并按离子的质量m与电荷
z 的比值(简称质荷比m/z)进行分离和测定,是一种物理方法,即物质粒子的质量谱。如图1(a)是蛋白质一级质谱中的肽段质荷比;(b)是串联质谱中肽段的各种离子峰等。质谱技术在蛋白质鉴定中的应用得益于质谱仪硬件技术的快速发展,图2绘出了质谱技术的发展历史。
尽管目前有很多不同原理的质谱仪,它们的名称也繁多复杂,但质谱仪一般都是由三部分构成,如图3所示。首先,生物大分子在离子源(Ion Source)进行离子化,产生大量的带电离子,然后这些带电离子由于质荷比的不同在质量分析器(Mass Analyzer)中进行分离,最后通过离子检测器(Ion Detector)获得它们的质荷比和对应的强度峰,形成质谱数据并输出供分析。在质谱仪中,离子源和质量分析器是最关键的两个部分,生物大分子的离子化技术主要有电喷雾ESI(Electrospray Ionization)和基质辅助激光解吸附MALDI (Matrix-Assisted Laser Desorption and Ionization)。质量分析技术主要有四级杆(Q: Quadrapole),飞行器(TOF: Time-Of-Flight),离子阱(Ion Trap)等。它们可以形成很多组合,如MALDI-TOF, ESI-Q等。
ESI的基本原理是通过高电场作用下将样品溶液在毛细管喷雾口处形成小液滴,在干燥气体作用下,小液滴逐渐被气化,使分析物离子化,进入质量分析器,如图4所示。
MALDI的基本原理则是将样本分散于固体基质中,基质分子吸收激光的能量与样品解吸附,基质与样本发生电荷转移,从而使样品分子离子化,如图5所示。
二、质谱技术与蛋白质鉴定
目前,质谱技术在蛋白质组学中最基本的应用是蛋白质鉴定。随着人类基因组计划于2003年被宣布完成之后,对蛋白质组的全面研究将逐渐成为本世纪前期的另一项重要任务。
蛋白质组学(Proteomics)是研究细胞或组织内所有表达的蛋白质的一门新兴学科,如蛋白质的鉴定、结构预测、功能分类、定位、翻译后修饰、相互作用、定量分析、疾病诊断与药物设计等,它已成为计算生物学,或生物信息学的一个主要分支。利用蛋白质或肽的质谱数据可以实现蛋白质的身份鉴定、翻译后修饰分析、寻找生物标记物与疾病的早期诊断等应用,在蛋白质组学中,以质谱技术为核心的研究工作最近几年逐渐受到重视,特别是获得2002年诺贝尔化学奖的MALDI和ESI软电离技术的发明使得生物质谱的发展与推广使用尤为迅速。在蛋白质组学领域内,计算质谱学是专门研究如何分析和利用各种类型的质谱数据来发现与蛋白质相关的生物学知识,包括蛋白质的身份鉴定、氨基酸序列信息分析、翻译后修饰分析、定量化信息提取、生物标记物发现与疾病诊断建模等过程中所涉及到的统计分析、数据挖掘、数据前后处理算法等与计算相关的问题。
利用质谱技术进行蛋白质鉴定通常有三种方法:
(1) 查询蛋白质序列数据库,这是目前最常用的方法。
(2) 从头测序(De Novo Peptide Sequencing)。针对数据库里没有的新蛋白或发生翻译后修饰等情况的蛋白质,不依赖数据库而直接利用质量较好的质谱来推理获得序列信息。
(3) 首先用从头测序方法获得高信度的序列片段(Tag),然后利用这些片段辅助查询蛋白质数据库,是前两种方法的结合。
对于蛋白质的混合物,无论是用凝胶电泳分离还是应用液相色谱分离,总希望能够鉴定出其成分,即其氨基酸序列信息。通常蛋白质在胰蛋白酶的作用下会被“切”成一段段的肽段,进入一级质谱分析,可以获得其肽质量指纹谱(PMF:Peptide Mass Fingerprinting),如图1(a),然后通过查询数据库可以获得样本中所含有的蛋白质。对于需要进一步鉴定的肽段,进入串联质谱
文档评论(0)