基于Bioperl的生物二次数据库的设计与实现.docVIP

下载本文档

1
0
约6.49千字
约 9页
2016-09-24 发布于北京
举报
版权申诉

基于Bioperl的生物二次数据库的设计与实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Bioperl的生物二次数据库的设计与实现.doc

基于Bioperl的生物二次数据库的设计与实现　　摘要：在分子生物学研究中，建立二次数据库可以更深入的进行特色物种的研究。通过分析了构建生物信息二次数据库的复杂性和必要性，在MySQL数据库的基础上利用Bioperl相关技术提出了可行性方案，并给出了关键的构建步骤，最后建立了一个生物信息研究平台。　　关键词：二次数据库；MySQL；Bioperl 　　中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2014）10-2195-04 　　Abstract：In the study of molecular biology， establishing secondary database can research on characteristics of species more in-depth. This paper analyzes the complexity and necessity of constructing biological information secondary database， uses Bioperl related technical based on the MySQL， puts forward some feasible schemes， gives the key steps， and finally establishs a biological information research platform. 　　Key words： secondary database； MySQL；Bioperl 　　1 概述　　自从人类基因组计划实施以来，国际上生物分子相关的数据库就如雨后春笋般地涌现出来，有数据全面、面向世界开放的一级数据库，如著名的三大核酸数据库GeneBank、DDBJ和EMBL，人类基因组数据库GDB，蛋白质序列数据库PIR、SWISS-PROT和PROSITE，蛋白质结构数据库PDB、SCOP、FSSP和MMDB等等。数据库虽多，但也存在诸多问题。例如国际上著名的核酸数据库就存在数据过多、重复、分类较粗的问题[1]，因此才有了众多源自公共一级数据库的、适应某一方面研究或特定实验室的二级数据库[2]，如PROSITE、Profiles和Pfam。二级数据库力求实现数据格式的统一，整合已有的优秀数据资源，避免数据库的重复建设[1]。它不是重复存储大型数据库已有的未处理数据，而是收集存储经分析处理过的有意义的数据，以满足人们对不同数据的需要[3]。相对而言这些数据库中数据的针对性强，准确性高，不足之处是大部分数据库都不对外开放，提供服务的数据库也存在服务质量不高、不能满足用户需要等[4]。因此建立自己的专用数据库十分必要。　　2 生物信息处理软件包Bioperl 　　针对生物信息的复杂性及其分析工具的复杂性，可以利用Bioperl进行二次软件开发，Bioperl是一个功能全面、源代码全部开放的生物信息学软件包，受到国际上生物信息领域软件开发的普遍欢迎[5]，它基本上是以模块或函数库的方式给出，在此基础上进行二次软件开发将较大幅度地提高软件开发的效率，可提高软件的可用性和可扩展性。　　Bioperl软件包含了基本程序集合，提供多种操作基类和数据基本接口，提供大量的生物信息学常用算法的源代码、二次数据库结构及数据操作接口，可以很方便地调用各种第三方程序。　　3 生物二次数据库的设计与实现　　3.1生物二次数据库的功能　　生物二次数据库适用于需要对生物信息数据库进行检索、比对、分析的单位或个人。它的主要功能是将网上各种常用的生物信息学数据库中的不同结构、不同语义的数据整合在一起，保存在本地关系型数据库中，使用户可以在统一的界面上方便地查询和分析生物信息数据。　　对数据库的使用者，生物二次数据库提供下载数据，转换数据格式，加载到本地数据库和数据维护等功能。对生物信息数据的使用者，生物二次数据库提供对各种序列数据进行查询、检索、序列对比和同源性分析，以及统计分析等功能。　　3.2生物二次数据库的基本结构　　由于生物二次数据库所需的许多基因和蛋白数据散落在文献和各大数据库中，数据格式各不相同。为了兼容多种格式的生物序列数据，数据库中的表设计需要一定的冗余，为了与国际接轨，生物二次数据库将在Biosql软件中给出的数据模型基本结构的基础上做适应性调整，其关键部分的E-R图参见图1[6]。　　图1中表biodatabase存放的是数据库的名称，用来存放的不同种类的数据。表bioentry是二次数据库序列目录，存放序列的id号、版本号等，它们与表bioentry_keywords、表bioentry_ref