- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于数据库检索的串联质谱鉴定技术
基于数据库检索的串联质谱鉴定技术 付岩 中国科学院计算技术研究所 yfu@ /user/yfu/index.htm 提纲 肽鉴定问题 已有肽打分算法 我们的工作 未来计划 肽鉴定问题 输入: 给定实验串联质谱S 肽序列数据库D = {pep1, pep2, …, pepn}; 实验条件C 输出: 在条件C下,D中最可能生成质谱S的肽序列pep* 肽鉴定算法的性能取决于我们预测质谱的能力 碎裂模式、碎片离子的类型和强度 离子质荷比的检测误差、噪音 已有肽打分方法 基于谱点积 (SDP) 早期软件: Shared Peak Count SEQUEST: XCORR Sonar MS/MS: SDP 基于概率 Mascot SCOPE ProbID 谱点积 (SDP) 实验质谱向量 c = [c1, c2,…, cN] 理论质谱向量 t = [t1, t2,…, tN] 谱点积 (SDP)评述 准确性取决于对理论质谱的预测准确度,现有软件和算法对理论谱的预测准确性有限; 忽略了碎片离子之间的相关性,所有离子匹配被同等对待,错误的随机匹配导致假阳性鉴定结果。 概率肽打分 基于各种假设在不同层次上建立概率模型 Max p( peptide | spectrum ) =Max p( spectrum | peptide )p( peptide ) 评述 基本条件概率依赖于先验假定, 或者缺乏有效的学习手段; 为了使概率公式可计算,不得不做严格假设. 比如离子独立性; 我们的工作 利用离子相关性降低随机错误匹配,例如连续离子的情况 技巧:核函数(对连续离子加权) 离子阵列和相关窗口 质谱向量的矩阵形式 核技巧 Ref: Scholkopf et al (1998) Prior knowledge in support vector kernels. 核谱点积 cj 是以 cpq为元素的向量, tj是以 tpq为元素的向量, tpq和tpq是矩阵C和T中第j个相关窗口中的元素 k(cj,tj) 是核函数, 点积核?x, y? (KSDP?SDP) 多项式核?x, y?d RBF核exp(??||x?y ||2) KSDP把质谱向量映射到一个高维空间,这个空间的维对应于相关离子的组合; 软件: pFind 实验 数据 离子阱串联质谱来自18个纯蛋白 Dataset A: 1323个串联质谱 Dataset B: 731个串联质谱 Reference Keller et al. (2002) Experimental protein mixture for validating tandem mass spectral analysis. Omics, 6, 207–212. KSDP vs. SDP 多项式核 RBF 核 (cik和, tik, ci和ti 取0/1值) pFind vs. 其他软件 假阳性结果数量比较 更多细节 Yan Fu, Qiang Yang, Ruixiang Sun, Dequan Li, Rong Zeng, Charles X. Ling, Wen Gao. Exploiting the kernel trick to correlate fragment ions for peptide identification via tandem mass spectrometry. Bioinformatics, 20: 1948-1954, 2004. 未来计划 理论质谱预测 肽碎裂模式发现 误差模型 鉴定结果显著性评价 哪些鉴定结果是真正正确的? 与KDD Cup工作相通 把鉴定结果用向量描述 采用数据挖掘算法进行分类 谢谢,请批评指教 * * 2-D gel Wash, in-gel digest with trypsin Excise spot 蛋白质鉴定结果: KFDFDSFTFJYMKOJDFGFDDTGIPDGFAGFFGHYAQGGITFRHEW… 肽鉴定结果: IPDGFAG AQGGITFR … De novo 搜索数据库 搜索数据库 我们仅仅知道一些简单的规则 T= , C= 实验谱 理论谱 Locally improved polynomial kernel 横坐标:鉴定错误率; 纵坐标:参数 dataset B *
原创力文档


文档评论(0)