基于氨基酸序列的蛋白质结构功能预测方法分析-模式识别与智能系统专业论文.docxVIP

基于氨基酸序列的蛋白质结构功能预测方法分析-模式识别与智能系统专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘要摘要 摘要 摘要 近年来,高通量技术的应用带来了蛋白质数据成指数的增长。在这些海量 多样的蛋白质数据中,蕴藏着大量有创新性的生物新规律和新概念。随着人类 基因组计划(HGP)的顺利完成,研究这些成指数增长且高噪声的海量蛋白质数据 需要高速、准确、可拓展的理论及其算法。因此,推动了一门新兴学科一生物 信息学的诞生和发展,蛋白质结构和功能的研究是生物信息学领域的前沿课题, 也是后基因组时代的核心问题之一。本文基于蛋白质结构和功能的预测研究现 状,采用支持向量机等多种分类器,并结合不同的特征提取算法,对蛋白质结 构和功能进行分类预测研究,主要工作概括如下: (1)提出了预测蛋白质同源寡聚体的新模型一小波支持向量机模型。本文通 过离散小波变换有效地提取了蛋白质序列的特征信息,并采用了不同分类算法 对同源寡聚体类型进行分类预测。通过留一法检验表明,小波支持向量机模型 能更好地分类预测同源寡聚体的类型,同时预测结果比文献报道的结果有明显 地提高;在此基础上,进一步深入研究了数据集的大小对预测准确率的影响。 结果表明在数据集平衡的情况下,随着数据集的减小,iackknife运算机制受到影 响,而导致预测准确率降低,这与文献报道一致。 (2)建立了同源寡聚体和异源寡聚体的分类预测新模型。该模型将离散小波 和氨基酸的物理化学性质相结合,利用离散小波变换近似系数和细节系数,将 同源寡聚体和异源寡聚体的序列分解为多层次的小波系数,即将一维序列分解 为同时具有时.频特性的二维序列,并从其中提取有效的特征向量信息。最后通 过不同的分类算法对蛋白质序列进行分类预测研究。同时对Chou构建的高序列 一致性蛋白质数据库和Xiao构建的低序列一致性蛋白质数据库进行了分类预测 研究,发现该模型不仅能够提高预测准确率,而且能有效地克服低序列一致性 数据库预测准确率较低的问题。 (3)建立了蛋白质四级结构及亚结构的预测新模型。从氨基酸的疏水性和极 性出发,基于离散小波变换和决策树算法,构建了预测蛋白质四级结构及亚结 构的新模型DWT DT。本文重点研究了氨基酸疏水性和极性对预测结果的影响, 经分析表明疏水性对蛋白质结构的预测准确率有重要的影响。同时,深入挖掘 算法产生过拟合的原因,并通过ROC曲线和PR曲线的评价,阐明了我们所构 摘要建的模型能够有效克服过拟合。基于上述研究结果,我们构建了网络在线预测 摘要 建的模型能够有效克服过拟合。基于上述研究结果,我们构建了网络在线预测 平台,通过Intemet向所有使用者提供开放式服务。 (4)建立了蛋白质棕榈化修饰位点的预测新模型—WSM.Plam模型。该模 型融合权重氨基酸成分、自相关函数和溶剂可及表面面积等多种特征提取方法 表达棕榈化位点样本特征向量信息,并通过不同的分类算法对其进行分类预测。 实验结果表明,融合的特征提取方法比单一的方法能够包含更多的有效特征向 量,从而更准确的对位点进行识别分类。此外,该模型计算简单、分类精度高, 且具有较强的自适应、泛化和推广应用能力。最后,我们构建了棕榈化位点的 在线预测平台(http://bioirrfo.ncu.edu.cn/services-ptm.aspx)。 上述各种算法都已编写了处理程序并实现网络在线预测,可以极为方便地 使用并处理数据。本论文获得了国家自然科学基金、江西省自然科学基金和国 家重点实验室基金的资助。 关键词:离散小波变换;蛋白质四级结构:棕榈化修饰位点;多分类器;多特 征融合 Il ABSTRACTABSTRACT ABSTRACT ABSTRACT In recent years,high—throughput technologies make protein data诚m exponential growth.In these diverse,vast amounts of protein data,it contains a large number of innovative new laws of biology and new concepts.Witll the Human Oenome Project accomplishment,a mass of data need to be predict through the theory and algorithm witll mgh-speed,high accuracy and developable.Therefore,a new subject ·bioinformatics cDmes into being.The relationship on the structure and function of proteins is an important question

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档