蛋白质结构数据库的信息挖掘.pdf

下载文档 降价啦

8
0
约6.11万字
约 65页
2017-09-01 发布于安徽
举报
版权申诉
保障服务

蛋白质结构数据库的信息挖掘.pdf

1、本文档共65页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

摘要摘要随着人类基因组计划的实施和生物信息学的迅速发展，通过基因组测序、蛋白质序列测定和结构解析等实验，人们获得了大量的关于蛋白质结构的原始数据，并且建立了众多的蛋白质结构数据库。其中由美国布鲁克海文国家实验 DataBank，室建立的蛋白质的基本立体结构数据库：蛋白质数据银行(Protein 简称PDB)是世界上最为完整的蛋白质结构信息数据库，是我们研究蛋白质结构及其相关领域的基础，也是本文进行数据挖掘的对象。生物信息学的主要目的之一在于了解蛋白质中氨基酸序列和蛋白质三维结构之间的关系。如果知道了这种关系，就可以从氨基酸序列可靠地预测蛋白质结构。然而，序列和结构问的关系并不简单。本文中，我们利用数据挖掘得到的统计信息数据库对蛋白质的二级结构进行了预测。我们的主导思路是：通过对PDB数据库中的氨基酸序列和结构序列进行切片处理，得到蛋白质序列和结构的切片数据库，然后利用数据库技术和数据挖掘方法对这些切片进行数据挖掘工作，从中发现一些内在的规律，并建立了基于PDB数据库的蛋白质切片统计信息数据库。利用这个统计信息数据库和我们数据挖掘得到的知识，设计了基于蛋白质统计信息数据库的蛋白质二级结构预测系统。为了验证新的预测方法，我们选取了20条最近发布的且不在我们的统计信息库中的蛋白质序列进行预测。其平均03准确率为75．10％，其中有6个预测样本的03值超过了80％。本文主要分为三个部分：第一部分主要介绍了目前数据挖掘的主要方法、原理以及数据挖掘在生物信息学众多领域的应用。第二部分详细介绍了我们数据挖掘的对象和方法以及得到的丰富统计信息和对这些信息的可视化分析等处理。第三部分主要是讨论了目前蛋白质结构预测的主要流程和方法，提出了我们的基于统计信息数据库的蛋白质结构预测方法。在本文末尾，我们对预测工作中遇到的问题进行了探讨，并提出了很多改进的设想。我们认为，利用数据库技术和数据挖掘的方法来处理大量的蛋白质摘要结构信息是今后生物信息学的重要组成部分。而基丁统计信息库的蛋白质结构预测方法，随着蛋白质结构信息的增长其预测能力必将得到进一步的提高。本文的主要工作成果在于：1、系统地统计和分析了PDB库中所有蛋白质序列和结构的切片信息；2建立了蛋白质切片结构概率的统计信息数据库，并以此为基础提出了基于统计信息数据库的蛋白质结构预测方法。关键词：生物信息学，蛋白质数据银行，数据挖掘，蛋白质二级结构，蛋白质统计信息数据库 1I Abstract ABSTRACT wjththe launchofHumanGenome and thefast of aroject development amountof data Bioinformatics，agreat original structureare concerningprotein gainedbygenome and structure sequencing,proteinsequencingprotein analysis． Meanwhile Structuredatabases manyprotein havebeenbuilt th