生物信息学.pptVIP

下载本文档

4
0
约6.89千字
约 52页
2017-02-12 发布于北京
举报
版权申诉

生物信息学.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

生物信息学.ppt

生物信息学的一个重要问题：预测 1. 生物信息学最核心的问题：预测。 2. 生物信息学工具的作用：预测。 3. 基本假设(贝叶斯的哲学理念)：我们能够通过对已知世界的观察，总结经验，并以此来预测未知世界已经存在或者即将发生的事物/事件。 4. 在生物信息学中的应用：对现有的数据，使用合适的算法，进行训练，构建计算模型和计算工具，预测未知的现象。一、预测性能的计算和检验 1. 样本/检验数据：阳性数据(P)，阴性数据(N); a. 阳性数据(P)：真实的，被实验所证实的数据； b. 阴性数据(N)：被实验所证明为无功能的数据； 2. 对于预测结果的评测，定义： a. 真阳性 (TP): 阳性数据中被预测为阳性的数据； b. 假阳性 (FP): 阴性数据中被预测为阳性的数据； c. 真阴性 (TN): 阴性数据中被预测为阴性的数据； d. 假阴性 (FN): 阳性数据中被预测为阴性的数据；常用的检验指标 1. 敏感性 (Sensitivity, Sn): 对于真实的数据，能够预测成“真”的比例是多少； 2. 特异性 (Specificity, Sp): 对于阴性的数据，能够预测成“假”的比例是多少； 3. 准确性 (Accuracy, Ac): 对于整个数据集(包括阳性和阴性数据)，预测总共的准确比例是多少； 4. 马修相关系数(Mathew correlation coefficient, MCC): 当阳性数据的数量与阴性数据的数量差别较大时，能够更为公平的反映预测能力，值域[-1, 1]; ROC curve X轴：1-Sp Y轴：Sn ROC的面积越大，表明其预测能力越强。二、预测性能的检验方式主要有四种检验方式： 1. Self-consistency； 2. Independent test； 3. n-fold cross-validation； 4. Jackknife cross-validation. 1. Self-consistency: 将训练数据当成测试数据，即：训练数据中所有的阳性数据为测试数据中的阳性数据；训练数据中所有的阴性数据为测试数据中的阴性数据； 1）反映当前预测工具对目前已知的数据的预测能力； 2）假设：根据目前已知的数据所构建的计算模型能够反映未知的数据的模式； 3）缺点：不能反映计算模型的稳定性；三、预测算法简介计算流程：滑动窗口设定域值；窗口宽度9bp；依次打分，预测例：剪切模型 (Splicing) 计算log-odds ratio 真实的打分情况：5’SS 结果：解释 1. 细胞中的剪切机制(Splicing machinery)可能识别其他的，不包括在训练数据中的模式； 2. PSSM模型不能很好的反映真实的5’SS的识别情况。怎样计算待预测样本S与样本集Y的马氏距离？ SVM应用实例问题：预测分支杆菌蛋白质。研究过程：获得序列：从数据库中获得蛋白质序列，可直接从Swissprot数据库下载，本例获得852条分支杆菌蛋白质序列，分别是：340条位于细胞质的蛋白质，402条膜蛋白，50条分泌蛋白，60条膜接触蛋白。去除冗余：使用CD-HIT程序，结果： 3. 特征提取: 可选取20氨基酸的频率、400种二联体的频率本例使用Chou提出的伪氨基酸组分。 Fisher判别的实现步骤 1）计算两类样本p个特征的平均数： 3）计算两类样本的矩阵系数： 2）计算两类样本特征的平均数的差： 4）求方程的系数：得到判别函数： 6）判别准则： 5）带入平均值： 3. 距离判别距离判别的最直观的想法：计算样品到第i类总体的平均数的距离，哪个距离最小就将它判归哪个总体，所以，我们首先考虑是否能够构造一个恰当的距离函数，通过样本与某类别之间距离的大小，判别其所属类别。以马氏距离为例马氏距离判别的实现步骤： 2）计算样本集的协方差阵为： 3）待测样本S与样本集Y的马氏距离：这里l是样本集类别总数。 4）判别准则： 4. 支持向量机传统统计学研究的是样本数目趋于无穷大时的渐近理论, 现有学习方法也多是基于此假设。但在实际问题中, 样本数往往是有限的, 因此一些理论上很优秀的学习方法实际中表现却可能不尽人意。与传统统计学相比, 统计学习理论是一种专门研究小样本情况下机器学习规律的理论。 V. Vapnik 等人从六、七十年代开始致力于此方面研究，到九十年代中期, 随着其理论的不断发展和成熟, 也由于神经网络等