基于蛋白质序列和生物医学文献的蛋白质功能挖掘-生物信息学专业论文.docxVIP

下载本文档

4
0
约21.64万字
约 135页
2019-02-20 发布于上海
举报
版权申诉

基于蛋白质序列和生物医学文献的蛋白质功能挖掘-生物信息学专业论文.docx

1、本文档共135页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

中科院上海生命科学研究院中科院上海生命科学研究院研究生学位论文声明本人郑重声明： 1)所呈交的学位论文，是小人在导师的指导下，独市进行研究T作所取得的成果。除文巾已经注明引用的内容或属合作研究共1w]％A自gS。作外，本论文不包含任们其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人羊¨集体，均已在文中以明确方式标明。 2)所旱交的学位论文，实验结果均由相应的实验数据分析得m，实骀数据真‘史nj靠。该声明的法律结果由本人承担。学位论文作者签名：萄和荔鹄同期：，岛年石月p H 研究生学位论文版权使用授权声明水人完全了解并同意遵守中科院上海生命科学研究院有关保留、使用学位论史的舰定，即：生科院有权保阿送交论文的复印件和电子文什，并提供论文的目录检索及借阅、查阅；生科院可以公布沦文的全部或部分内容，可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或其它复制于段保存和汇编小学位论文。保密的沦文在解密后遵守此规定。作者签名：写耷燮盘导师签名盔匿醐一丘壁第一章引言第一章引言第一章引言第一章引言 20世纪50年代，DNA双螺旋结构的阐明开创了分子生物学的时代。从此，生物学的研究进入了高速发展的时期，特别是近十几年来，生物科学和技术的迅猛发展，产牛了数目惊人的生物学数据信息。这些数据主要可以分成两个部分，一部分是与核酸和蛋白质相关的序列以及结构数据，另一部分是生物医学文献。 1990年，美国启动了人类基因组计划，经过美、英、日、法、德和中国科研人员十年的艰苦努力，终于在2001年完成了人类基凶组的草图(包含约3×109 个碱基对的测序和3X 104余个基因的注释丁作)[1，21。在此之后，越来越多的模式生物也完成了令基冈组的测序工作，到目前为止，在美困NCBI网站}：已经公布全基因纽序列数据的物种已经达到351 个 (数据来自 http：／／www．ncbi．nlm．nih．gov／genomes／static／gpstat．htrnl)。数据的累计速度更是惊人，以典型的DNA序列数据为倒，1992年，在GenBank，EMBL，DDBJ二个国际数据库叶]记录的DNA序列的碱基数约为777万，到2000年，就猛增至超过100亿，到 2006 年，已经达到了 605 亿多 (数据来自 htjR：／／www．ddbj．nig．ac．jpPoreakdown stats／prop bp．htrnl)。面对如此爆炸式增长的海量数据，迫切需要有强大的信息管理和分析方法来对它们进行挖掘。因为这些数据本身并不是知识，只有通过有效的数据挖掘于段，它们才‘能转化为对人类的医药、环保、农林有用的知识。与此同时，与生物医学相关的文献数量也迅速增长。从1950年到1965年， Medline数据库收录的文献数目大约足200万左右，到2005年，仪美国PubMed 数据库就收录了全球4800多个宅物医学方面的杂志，文献数目也已经增至1500 万(数据来自红鲤：丛型型!坠￡逝：旦地：!亟gQ!』!=地型坐￡』)。面对如此数量级的文献，如果单靠人的阅读，想要全面地找到所有欲搜索的相天信息是非常困难的，人们迫切的需要计算机和信息学方法的辅助。幸运的是，近20年来，计算机科学和信息科学领域也得到了飞速的发展。在计算机领域有■个众所周知的“Moore定律”，表述为“集成电路的集成度每18 基于蛋白质序列和生物医学文献的蛋白质功能挖掘个月翻一番”，也就是说电子计算机芯片对于数字处理的能力是指数增长的。从巨基于蛋白质序列和生物医学文献的蛋白质功能挖掘个月翻一番”，也就是说电子计算机芯片对于数字处理的能力是指数增长的。从巨型计算机的发展历史来看，60年代，巨型机的运算速度只有每秒100万次，1976 年，克雷向量计算机问世，速度达到每秒二亿次，到80年代末，巨型机的运算速度己达到每秒200多亿次。如今，大型汁算机的数据处理能力已经发展到每秒数万亿次乃至数十万亿次计算的水平了。有了计算机硬件技术条件的支持和计算方法的创新和发展，对生物学海量数据的存储、提取和分析才成为可能。正是在这样一个背景下，生物信息学应运而生，并迅速地发展起来。美国人类基因组计划实施五年后的总结报告中，对生物信息学作了以下定义：生物信息学是一门交叉科学，它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面，它综合运用数学、计算机科学和生物学的各种工具，来阐明和理解大量数据所包含的生物学意义『3，41。本文的研究内容集中于蛋白质功能的分类和预测，主要采用数据挖掘和机器学习方法针对包含蛋白质功能信息的两大载体一蛋白质序列和生物医学文献进行分析