06 序列模式识别.pdf

  1. 1、本文档共106页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
06 序列模式识别.pdf

生物信息学 第六章:序列模式识别 生物信息学:预测 ? 生物信息学核心目标之一:预测 ? 生物信息学工具的最常见作用:预测 ? 基本假设(贝叶斯的哲学理念):我们能够通过对 已知世界的观察,总结经验,并以此来预测未知 世界已经存在或者即将发生的事物/事件。 ? 在生物信息学中的应用:对现有的数据,使用合 适的算法,进行训练,构建计算模型和计算工具, 预测未知的现象。 功能结构域 ? 具有完整的、独立的三级结构 ? 具有特定的生物学功能 ? 一般长度,几十到几百个氨基酸 ? 允许插入/缺失,即允许存在gap 模块、模体、模式 ? 模块,BLOCK ? 模体,motif ? 模式,pattern/profile 模块/BLOCK ? 几个到几十个氨基酸 ? 无gap,从全局多序列比对的结果直接处理得到 ? 描述蛋白质家族或者一类??白质的序列保守性 BLOCK 模体/Motif ? 不具有独立的三级结构 ? 具有特定的生物学功能:结合,修饰,细胞亚定位, 维持结构等 ? 长度一般几个到几十个氨基酸或者碱基; ? 例如,SUMO化的序列模体:Ψ-K-X-E (Ψ:A, I, L,V, M, F, P; X:任意氨基酸) 模式/Pattern/Profile ? 在算法上用来描述一类功能结构域、模体或者 模块的表示方式 ? 根据序列数据构建的预测模型 ? 数据形式:概率表示,正则表达式 [AC]? D ?[IVL]? X ? ?[PG]?[FY] ? 2 3 1 2 ? 用来预测新的可能符合特定模式的序列 ? 例如,直接将Ψ-K-X-E视为SUMO化位点的,普 适的“模式”,则可以预测所有包含该模式的蛋 白质序列 本章内容提要 1,预测性能检验 2,位点特异性打分矩阵/权重矩阵模型, Position Specific Scoring Matrix (PSSM) /Weight Matrix Model (WMM) 3,模体发现:Gibbs Sampler算法 4,贝叶斯统计预测 5,马尔可夫及隐马尔可夫模型 6, 序列模式识别应用及序列特征分析举例 1,预测性能的计算和检验 ? 样本/检验数据:阳性数据(P),阴性数据(N) ? 阳性数据(P):有功能,满足条件的数据 ? 阴性数据(N):无功能,不满足条件的数据 ? 对于预测结果的评测,定义: ? a. 真阳性 (TP): 实际阳性数据中被预测为阳性的数据 ? b. 假阳性 (FP): 实际阴性数据中被预测为阳性的数据 ? c. 真阴性 (TN): 实际阴性数据中被预测为阴性的数据 ? d. 假阴性 (FN): 实际阳性数据中被预测为阴性的数据 常用的检验指标 ?1. 敏感性 (Sensitivity, Sn) also called ‘recall rate’ or ‘true positive rate’ (TPR) ? 实际阳性数据中,能够准确预测的比例是多少 ?2. 特异性 (Specificity, Sp) ? 实际阴性数据中,能够准确预测的比例是多少 常用的检验指标计算公式 ?3. 准确性 (Accuracy, Ac) ?对于整个数据集(包括阳性和阴性数据),总共的准确 预测比例是多少 ?4. 马修相关系数(Mathew correlation coefficient, MCC) ? 当阳性数据的数量与阴性数据的数量差别较大时,能 够更为公平的反映预测能力,值域[-1,1] 选择性- Selectivity ? also called precision or positive predictive value (PPV) ? 预测为‘真’的数据中,实际阳性数据所 占的比例。 ?相对阳性数据(P),当阴性数据(N)很大或难 以准确定义时,可由‘选择性’代替‘特异 性’指标。 TP Se = TP + FP ROC curve ?X轴:1-Sp Y轴:Sn ?ROC的面积越 大,表明其预

文档评论(0)

带头大哥 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档