支持向量机蛋白质远程同源检测方法分析.docVIP

支持向量机蛋白质远程同源检测方法分析.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
支持向量机蛋白质远程同源检测方法分析

支持向量机蛋白质远程同源检测方法分析   摘 要: 支持向量机是目前蛋白质远程同源检测应用最成功的方法。在介绍这些基于支持向量 机核方法的原理之后,比较这些检测方法的不同之处;再从复杂性角度对比分析不同方法的 计算效率;最后指出核方法中核函数的选取也决定支持向量机的分类能力。   关键词:蛋白质远程同源检测;支持向量机;核函数   中图分类号:Q-332 文献标识码:A 文章编号:1672-1098(2009)03-0064-05      随着分子生物学领域的进展,如大规模测序仪器的诞生以及“人类基因组工 程”的完成,产生了庞大的蛋白质序列信息。在这个阶段,信息由组成蛋白质的氨基酸序列 描述,没有蛋白质的结构和功能方面的信息。而蛋白质只有形成一定的空间结构,才可以具 有特定的生物活性。传统的蛋白质结构分析技术如X射线晶体衍射以及核磁共振费时、费力 又容易引起误差。因此,如何寻找一种有效的计算方法,使之能够从蛋白质的一级结构(也 就是蛋白质序列)直接预测蛋白质的结构和功能,将具有重要意义。在理论上,如果清楚一 级结构是如何决定其高级结构这个基本问题,将会使人们更系统和完整地理解生物信息从D NA到具有生物活性蛋白质的传递全过程,使中心法则得到更完整的阐明,从而对生命过程 中各现象有进一步的深刻认识,最终推动生命科学的快速发展。在应用上,将使人们有能 力解决诸如疾病等问题,设计具有新型生物功能的蛋白质,对医药、农牧业等将有极大的促 进作用。   近年来,利用同源性来预测蛋白质序列的结构和功能得到了长足发展,是目前最成熟的方法 。所谓蛋白质序列的同源性是指部分蛋白质序列由同一“祖先”序列进化而来。远程同源是 指同源的蛋白质序列已经充分进化,不再显示较强的序列间的相似性。许多算法都利用蛋白 质序列的同源性,将新测定的蛋白质序列分类到已知结构和功能的蛋白质家族中去,从而利 用已知蛋白质家族的结构和功能来预测新测定蛋白质序列的结构和功能。这些算法的生物学 背景是:进化的压力迫使物种保留对于结构和功能非常重要的序列信息。同时这也是诸多基 于同源性算法的出发点。与物理方法相比,计算方法具有省时、省力和精度高等优点。作为 计算生物学中核心问题之一的蛋白质序列同源检测也因此越来越引起研究者们的注意。   在过去的25年中,国内外研究者开发了很多蛋白质同源检测的方法。早期的蛋白质同源检 测方法有Smith-Waterman动态规划方法,Profile和Hidden Markov Models等,以及目前 精 度最高的Pairwise comparison kernel方法[1-4]。近年来,由于支持向量机学习 算法出色的学 习性能和良好的泛化能力, 使其在计算生物学中得到了广泛应用, 基于支持向量机的蛋白 质 远程同源检测方法也走向成熟。 本文对这些方法进行了介绍, 并对不同的方法进行了分析 和比较, 给出了各算法的计算复杂度。      1 蛋白质远程同源检测方法的发展      第一阶 段,查找一对蛋白质序列的相似性。这些方法包括最精确的Smith-Waterman动态规划方法 ,和以降低精度来提高效率的启发式方法。   第二阶段,通过单个未标注蛋白质序列(即未知结构与功能的蛋白质序列)与相似序列集合 (蛋白质家族)的总体统计特性比较,获得了更精确的结果。文献[4-5]就是该统计方法 的代表。这些基于蛋白质家族的方法的精度比简单序列对比方法的精度提高了将近3倍 [6]。   第三阶段,通过利用大型未标注蛋白质序列数据库中的信息来获得更高的精度。迭代方法 [7-8]通过迭代地从数据库中搜集同源序列并将统计结果整合到模型中去,而比 基 于Profile的方法提高了精度。但是该方法的缺点是所有的统计结果均由阳性样本(已知的 同源序列)生成,而没有利用阴性样本的信息。   第四阶段,精度的进一步提高通过针对阳性样本和阴性样本之间的差异建立模型获得。由于 同源检测是区分相关的蛋白质序列和不相关的蛋白质序列,那么针对两类蛋白质序列集合之 间的差异建立模型, 与前面的方法相比, 势必具有更强的区分能力。 1999年, 文献[9]将迭代的隐马耳科夫模型与支持向量机相结合,开创了基于支持向量机的蛋白质远程同源检 测方法。支持向量机最早由文献[10]提出,是一种专门研究在小样本情况下的机器学习 规律的理论。九十年代中期,由于神 经网络等学习方法在理论上缺乏实质性进展,以及Jaakkola在蛋白质远程同源检测领域取得 的突破性进展,统计学习理论开始受到越来越广泛的重视。目前,各种基于支持向量机的蛋 白质同源检测方法不断涌现[11-16]。      2 检测方法      2.1 支持向量机算法   支持向量机的研究最初是针

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档