生物信息学.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
生物信息学.ppt

生物信息学的一个重要问题:预测 1. 生物信息学最核心的问题:预测。 2. 生物信息学工具的作用:预测。 3. 基本假设(贝叶斯的哲学理念):我们能够通过对已知世界的观察,总结经验,并以此来预测未知世界已经存在或者即将发生的事物/事件。 4. 在生物信息学中的应用:对现有的数据,使用合适的算法,进行训练,构建计算模型和计算工具,预测未知的现象。 一、预测性能的计算和检验 1. 样本/检验数据:阳性数据(P),阴性数据(N); a. 阳性数据(P):真实的,被实验所证实的数据; b. 阴性数据(N):被实验所证明为无功能的数据; 2. 对于预测结果的评测,定义: a. 真阳性 (TP): 阳性数据中被预测为阳性的数据; b. 假阳性 (FP): 阴性数据中被预测为阳性的数据; c. 真阴性 (TN): 阴性数据中被预测为阴性的数据; d. 假阴性 (FN): 阳性数据中被预测为阴性的数据; 常用的检验指标 1. 敏感性 (Sensitivity, Sn): 对于真实的数据,能够预测成“真”的比例是多少; 2. 特异性 (Specificity, Sp): 对于阴性的数据,能够预测成“假”的比例是多少; 3. 准确性 (Accuracy, Ac): 对于整个数据集(包括阳性和阴性数据),预测总共的准确比例是多少; 4. 马修相关系数(Mathew correlation coefficient, MCC): 当阳性数据的数量与阴性数据的数量差别较大时,能够更为公平的反映预测能力,值域[-1, 1]; ROC curve X轴:1-Sp Y轴:Sn ROC的面积越大,表明其预测能力越强。 二、预测性能的检验方式 主要有四种检验方式: 1. Self-consistency; 2. Independent test; 3. n-fold cross-validation; 4. Jackknife cross-validation. 1. Self-consistency: 将训练数据当成测试数据,即:训练数据中所有的阳性数据为测试数据中的阳性数据;训练数据中所有的阴性数据为测试数据中的阴性数据; 1) 反映当前预测工具对目前已知的数据的 预测能力; 2) 假设:根据目前已知的数据所构建的计 算模型能够反映未知的数据的模式; 3) 缺点:不能反映计算模型的稳定性; 三、预测算法简介 计算流程:滑动窗口 设定域值;窗口宽度9bp;依次打分,预测 例:剪切模型 (Splicing) 计算log-odds ratio 真实的打分情况:5’SS 结果:解释 1. 细胞中的剪切机制(Splicing machinery)可能识别其他的,不包括在训练数据中的模式; 2. PSSM模型不能很好的反映真实的5’SS的识别情况。 怎样计算待预测样本S与样本集Y的马氏距离? SVM应用实例 问题:预测分支杆菌蛋白质。 研究过程: 获得序列:从数据库中获得蛋白质序列,可直接从Swissprot数据库下载,本例获得852条分支杆菌蛋白质序列,分别是:340条位于细胞质的蛋白质,402条膜蛋白,50条分泌蛋白,60条膜接触蛋白。 去除冗余:使用CD-HIT程序,结果: 3. 特征提取: 可选取20氨基酸的频率、400种二联体的频率 本例使用Chou提出的伪氨基酸组分。 Fisher判别的实现步骤 1)计算两类样本p个特征的平均数: 3)计算两类样本的矩阵系数: 2)计算两类样本特征的平均数的差: 4)求方程的系数: 得到判别函数: 6)判别准则: 5)带入平均值: 3. 距离判别 距离判别的最直观的想法: 计算样品到第i类总体的平均数的距离,哪个距离最小就将它判归哪个总体,所以,我们首先考虑是否能够构造一个恰当的距离函数,通过样本与某类别之间距离的大小,判别其所属类别。 以马氏距离为例 马氏距离判别的实现步骤 : 2)计算样本集的协方差阵为: 3)待测样本S与样本集Y的马氏距离: 这里l是样本集类别总数。 4)判别准则: 4. 支持向量机 传统统计学研究的是样本数目趋于无穷大时的渐近理论, 现有学习方法也多是基于此假设。但在实际问题中, 样本数往往是有限的, 因此一些理论上很优秀的学习方法实际中表现却可能不尽人意。 与传统统计学相比, 统计学习理论是一种专门研究小样本情况下机器学习规律的理论。 V. Vapnik 等人从六、七十年代开始致力于此方面研究, 到九十年代中期, 随着其理论的不断发展和成熟, 也由于神经网络等

文档评论(0)

jingpinwedang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档