均衡数据法在蛋白质二级结构预测中应用.pdf

均衡数据法在蛋白质二级结构预测中应用.pdf

  1. 1、本文档共47页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
均衡数据法在蛋白质二级结构预测中的应用 中文摘要 均衡数据法在蛋白质二级结构预测中的应用 中文摘要 近年来生物学的发展积累了海量的实验数据,研究这些数据中隐含的生物学意义 尤为重要。目前,生物信息学中最受关注的问题之一就是怎样从蛋白质的一级序列得 到其三级结构,而二级结构是构成三级结构的基本单元。计算机预测方法被广泛应用 于蛋白质二级结构的研究,其发展过程大体分为三个阶段:第一阶段以数理统计作为 出发点,基于单个氨基酸信息,如Chou-Fasman 和GOR 方法;第二阶段基于进化信 息,主要利用BLAST 等工具在序列数据库中对搜索序列进行多重比对以取得同源信 息利用PSI-BLAST 取得相应的进化信息 PSSM ;第三阶段的预测方法则在第二阶段 的基础上加入了同源序列的信息,所以预测精度更高,现在人们研究的方法大都属于 第三阶段。为提高蛋白质二级结构预测精度,本文提出一种均衡数据法来对一般预测 工具的结果进行处理。具体做法为:首先在蛋白质结构分类数据库SCOP 中选择100 条已知结构的蛋白质 (共 16818 个残基),作为训练集。采用PHD 、NNPREDICT 、 SOPMA 三种方法进行预测,将每条蛋白质测试的结果与蛋白质的标准结构对比,通 过专门用于蛋白质结构预测算法评估的web 服务器EVA 进行准确率评估,将得到的 结果用统计的方法分别计算出能够代表这三种蛋白质二级结构预测方法各自预测能 力的权重值。再建立一个包含有个3892 残基,共20 条已知结构的蛋白质组成的测试 集,同样采用PHD 、NNPREDICT 、SOPMA 三种方法进行预测,将训练集实验得出 的权重值运用到预测结果中进行重新计算,即将预测结果数据进行均衡处理,得到的 预测结果与蛋白质的标准结构对比,通过EVA 进行准确率评估,结果表明本文提出 的均衡数据预测法能在一定程度上提高蛋白质二级结构的预测精度,起到了优化这三 种预测工具预测质量的作用。 关键词:蛋白质二级结构预测 支持向量机 EVA 评估 均衡数据法 作 者:孙 彦 指导教师:吕 强 I Abstract Application Of The Balanced Data Method On The Protein Secondary Structure Prediction Application of The Balanced Data Method On The Protein Secondary Structure Prediction Abstract In recent years the development of biological accumulation of vast amounts of experimental data to study the biological significance of these data implied particularly important. Currently, one of the most talked about issues in bioinformatics is how a sequence from the protein tertiary structure, secondary structure constitutes the basic unit of the tertiary structure. Computer prediction methods are widely used in studies of protein seco

您可能关注的文档

文档评论(0)

gubeiren_001 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档