- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于串级质谱信息进行蛋白质数据库搜索的结果可靠性分析_临床医学论文.doc
基于串级质谱信息进行蛋白质数据库搜索的结果可靠性分析_临床医学论文
基于串级质谱信息进行蛋白质数据库搜索的结果可靠性分析_临床医学论文
作者:董乃平 李洪东 梁逸曾
【摘要】 SEQUEST与Mascot为目前蛋白组学分析研究中使用最为广泛的蛋白质库搜索工具。尝试将Mascot与SEQUEST搜索结果进行比较,进而采用不同多变量判别方法对二者的搜索结果进行判别分析,以降低其结果的假阳性率。通过对Mascot与SEQUEST搜索结果进行比较,发现所得结果差异很大;利用多变量判别分析方法对Mascot及SEQUEST搜索结果进行判别分析,可有效提高SEQUEST结果中假阳性结果与正确结果之间的区分能力。对于Mascot搜索结果,采用多变量判别分析方法仍无法显著降低其假阳性结果,利用Decoy库搜索结果进行估计时亦存在导致错误估计的风险。
【关键词】 蛋白质库搜索算法, 串联质谱, 多变量判别分析, Decoy蛋白质序列库
1 引 言
在复杂蛋白质样品的定性定量分析中,质谱技术已日益成为最重要的分析方法之一[1~3]。混合蛋白质样品由特定蛋白酶酶解得到多肽混合物,进入液相色谱(LC)分离,经一级质谱检测获得分离后多肽分子离子信息,从其中选择若干分子离子,每一个分子离子经碰撞诱导解离(Collision Induced Dissociation,CID)得二级质谱(MS/MS)谱图,获得该分子离子的碎片离子信息。对MS/MS谱图进行解析,即可得多肽离子的序列信息,反推得该多肽所属蛋白质序列,从而完成蛋白质定性。为了使高通量LC数据得到快速有效分析,采用蛋白质库搜索以定性蛋白质成为当前蛋白组学研究中最主要的方法[4]。该方法主要有3种方式:一是肽质量指纹图谱(Peptide Mass Fingerprint, PMF)库搜索,二是利用MS/MS数据对蛋白质库进行匹配搜索,三是肽序列标签查询。然而如何快速有效分析高通量MS/MS数据,准确定性样品中的蛋白质,仍然是蛋白组学研究中必须解决的一个问题[5]。本文仅对MS/MS数据搜索蛋白质库所得到的匹配结果进行了研究。
目前常用的数据库搜索算法主要有SEQUEST[6],Mascot[7],X!tandem[8],OMSSA[9],Phenyx[10]等。这些算法的应用使MS/MS数据快速分析进而鉴定蛋白质成为可能。但是,由于各种搜索工具本身存在的缺陷[11],及蛋白质数据库构建的不完善[12],使得采用蛋白质数据库搜索的方法可能得到大量假阳性结果,导致高误判率。为消除或减少假阳性结果的影响,一些统计学方法被应用于其中,包括基于机器学习的模式识别方法[13,14],基于统计模型的概率估计方法[15],以及基于结合不同MS/MS分析工具鉴定多肽的方法 [16,17]等。这些统计学方法对搜索结果虽可有所改善,但由于错误结果的得分与正确结果的得分之间存在交叉,从而限制了这些方法的应用 [18]。因此,在蛋白质组学的蛋白质定性分析过程中,需要发展更有效的方法,使其具有更高的可靠性。
本研究在对Mascot与SEQUEST搜索结果进行比较分析的基础上,采用Lasso(Least absolute shrinkage and selection operator)[19],偏最小二乘线性判别分析算法(PLS和支持向量机[20](SVM) 等在化学计量学中得到广泛使用的判别分析算法,分别对Mascot及SEQUEST搜索结果进行挖掘分析;同时,也采用翻转(Decoy)蛋白质库搜索结果对Mascot搜索结果进行错误发现率(FDR)估计。
2 实验部分
2.1 数据采集
数据集下载自regisbiology.net/PublicDatasets/[21]。该数据将18种标准蛋白质混合样品经8种LC仪器,包括(两种线性离子阱(Linear ion traps)、两种3D 离子阱(3D Ion traps)、两种QTOF(Quadrupole time和两种MALDI检测所得,是一组难得的进行蛋白组学分析研究的标准数据。本研究取3D离子阱的LC所采集数据进行分析。SEQUEST搜索结果数据由Klimek等搜索H.influenzae数据库所得[21]。10次重复实验共得到60700个搜索结果,正确匹配结果数为15247个。
Mascot()的搜索结果由同一组LC数据搜索Swiss蛋白质数据库得到。Mascot为其在线免费的搜索引擎,搜索参数:多肽质量误差限为±3,MS/MS碎片质荷比误差限为±1,蛋白质酶为胰蛋白酶(Trypsin),数据导出时p,导出格式为csv格式。所有的参数与John等所提供的一致, 搜索共得10482个结果,正确匹配结果为1258个。
2.2 变量选择
您可能关注的文档
- 四环素类药物与骨关节炎的治疗_临床医学论文.doc
- 四生汤对阴虚证小鼠自由活动能力和血清丙二醛含量的影响_临床医学论文.doc
- 四种上睑下垂术式临床效果分析_临床医学论文.doc
- 四种不同翼状胬肉手术方式术后复发率比较_临床医学论文.doc
- 四种基因甲基化特异性PCR引物设计探讨_临床医学论文.doc
- 四种嵌合免疫受体在T淋巴细胞中的表达分析_临床医学论文.doc
- 四种微量石蜡组织DNA提取方法的比较_临床医学论文.doc
- 四种药物联合检测对2型糖尿病早期肾损伤诊断的探讨_临床医学论文.doc
- 四联法治疗膝关节骨性关节炎的临床研究_临床医学论文.doc
- 四联疗法与标准三联疗法根除幽门螺杆菌的疗效观察_临床医学论文.doc
- 基于临床文献数据独立评价中医临床效应的方法研究_临床医学论文.doc
- 基于主成分分析和小波神经网络的近红外多组分建模研究_临床医学论文.doc
- 基于人工神经网络的中医证候非线性建模研究_临床医学论文.doc
- 基于人眼视觉特性的多尺度DR图像增强方法_临床医学论文.doc
- 基于任务驱动的《计算机文化基础》教学_临床医学论文.doc
- 基于仿生嗅觉的中药材鉴别的实现_临床医学论文.doc
- 基于仿真切割的陶瓷晶粒三维形貌特征评价系统_临床医学论文.doc
- 基于体素的形态测量学在认知功能障碍中的应用_临床医学论文.doc
- 基于偏最小二乘法的近红外光谱定量分析模型预测蛹虫草中腺苷含量_临床医学论文.doc
- 基于共轭梯度下降算法的类风湿关节炎BP神经网络证候模型研究_临床医学论文.doc
文档评论(0)