串联质谱蛋白质鉴定关键计算问题.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第 8 卷第 1 期 信息技术快报 Vol.8 No.1 Information Technology Letter Jan. 2010 串联质谱蛋白质鉴定的关键计算问题 付岩 贺思敏 孙瑞祥 王乐珩 摘要: 蛋白质鉴定是蛋白质组学研究的基础问题,而利用串联质谱搜索蛋白质序列数据库是目前蛋白质鉴 定最成功和最常用的方法。蛋白质鉴定软件本质上是一个信息检索系统,具有检索系统的共性,但与文本 或多媒体检索相比,又有其非常特殊之处,比如对检索结果进行可靠性评估是蛋白质鉴定必不可少的一步, 而这对于其它检索问题往往是不需要的。本文综述蛋白质鉴定搜索引擎中的关键计算问题及其研究进展, 包括数据库搜索匹配打分、鉴定结果可靠性统计评估、蛋白质修饰鉴定等,并对我们自己研制的蛋白质鉴 定搜索引擎 pFind 做简要介绍。 关键词:生物信息学;蛋白质鉴定;质谱;信息检索;pFind 1 引言 2001 年 2 月,人类基因组计划(Human Genome Project, HGP)组织和美国 Celera 公司分 别在《自然(Nature )》和《科学(Science )》上公布了人类基因组工作草图及初步分析结果。 人类基因组测序工作的基本完成,标志着后基因组时代的到来,生命科学的研究在寻找新的 生长点。2001 年 4 月在美国成立了以国际合作研究蛋白质组为主要任务的人类蛋白质组组 织(Human Proteome Organization, HUPO),随后各种蛋白质组计划相继展开,包括美国主导 的人类血液蛋白质组计划,中国主导的人类肝脏蛋白质组计划,德国主导的人类脑蛋白质组 计划等等。同时,针对其它各种生物体的蛋白质组研究也在世界各地广泛开展起来[1] 。中国 政府将蛋白质科学列为《国家中长期科学与技术发展纲要》四个重大科学计划之一,作为我 国2006 年到 2020 年期间生命科学的研究主题。 “蛋白质组” (Proteome)一词最早是由威金斯(Wilkins )等人于 1994 年首次提出的,用 于描述基因组的蛋白质对应物。蛋白质组是指生物细胞、组织或器官在给定时刻和给定条件 下表达的蛋白质的全体。顾名思义,蛋白质组学就是对蛋白质组的研究,其最基本的任务就 是确定特定有机体内全体蛋白质的状态,包括表达、定量、修饰、突变等方面。蛋白质是由 氨基酸分子聚合而成的生物大分子,蛋白质的氨基酸序列唯一确定了蛋白质的身份。大多数 的蛋白质在从脱氧核糖核酸(Deoxyribonucleic acid ,DNA )经信使核糖核酸(Messenger ribonucleic acid , mRNA )翻译过来之后,还会在特定氨基酸上发生化学修饰,这样才能实 现其生物活性。因而,对蛋白质序列的鉴定以及对蛋白质翻译后修饰的刻画对于系统了解蛋 白质的结构、功能及进化关系等关键的生物学知识具有十分重要的意义。 生物质谱是目前大规模蛋白质鉴定的主流技术,其优势在于高灵敏度、高通量和高精度 等[2] 。在典型的自底向上蛋白质组学研究策略中,蛋白质样品被酶解成肽段混合物,后者通 过色谱-质谱联用生成串联质谱。从串联质谱重构出肽段序列,是蛋白质鉴定的核心计算问 题。目前,最成功和最常用的解决方法是用串联质谱搜索蛋白质序列数据库,将数据库中的 序列做理论酶切和理论碎裂,然后将预测的谱图跟实验谱图匹配,从而鉴定肽序列,进而鉴 定整个蛋白。基于蛋白质序列库搜索的蛋白质鉴定,实际上是一个检索系统,其核心计算问 题是谱图匹配的肽打分算法。同时,为了得到正确的鉴定结果,蛋白质鉴定系统还必须对检 16 串联质谱蛋白质鉴定的关键计算问题 索结果的可靠性进行统计评估。蛋白质的修饰给蛋白质鉴定检索系统的速度和精度都带来了 更大挑战。本文下面主要就从这几方面综述蛋白质鉴定中的关键计算问题及目前的解决策 略,在这之前先简要介绍相关的生化背景。 2 生化背景知识 1.1 蛋白质和肽 蛋白质是一切生命的物质基础,广泛存在于各种生物组织细胞中,是生物细胞最重要的 组成物质。蛋白质是一类重要的生物大分子,是生物体内结构和功能的主要载体。人

文档评论(0)

天马行空 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档