基于多层结构模型生物信息分析平台研究.docVIP

基于多层结构模型生物信息分析平台研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于多层结构模型生物信息分析平台研究

基于多层结构模型生物信息分析平台研究   摘要:针对生物信息分析平台的构建,给出一种复合C/S、B/S的多层体系结构模型――BIOCMSM,并以构建新城疫病毒(NDV)生物信息分析平台为例,研究了该多层结构模型的实现过程。实验证明,BIOCMSM较好地解决了生物数据更新、数据集成、应用集成等问题。   关键词:二级数据库; 多层体系结构; 代理程序; 数据处理层   中图分类号:TP311文献标志码:A   文章编号:1001-3695(2007)11-0055-02      近年来,分子生物学发展的一个显著特点是生物数据的剧烈膨胀,并迅速形成了海量的生物信息库。到目前为止,GenBank中约有3 000多万条核酸序列;SWISS-PROT中约有19万条蛋白质序列;PDB中约有32 000多套结构。生物信息数据库的目录数据库DBCat收集的生物信息数据库已达510 多个。归纳起来,这些生物信息数据库主要有两大类,即一级数据库和二级数据库。一级数据库的数据直接来源于实验获得的原始数据;一般只经过简单的归类与注释,主要包含数据库基因组数据库、核酸序列数据库、蛋白质序列数据库、生物大分子(主要是蛋白质)三维空间结构数据库;二级数据库是对原始数据进行整理分类的结果,是在一级数据库、实验数据和理论分析基础上针对特定应用目标而建立的数据库。??   面对不断膨胀的生物学原始数据,如何构建生物信息二级数据库及分析平台,向生物学研究人员提供准确的信息,最大限度地满足他们研究和应用的需求,是生物信息研究人员面临的一个重要课题。??      1问题的提出与分析??      生物信息分析平台中的资源主要由两大要素组成,即数据信息和数据应用。数据信息是指生物数据实体;数据应用是指对生物数据实体的分析、计算、整合、过滤、挖掘、知识发现等。平台构建主要需要解决以下几个问题:a)数据库的更新。目前国内进行生物信息学研究的科研人员主要是通过手工操作在网上获取生物信息资源。首先访问原始数据库的 Web 站点(如NCBI),对数据库中各种注释信息进行关键词匹配查找;将查询结果以文本文件形式逐条下载到本地计算机,以便随后分析整理并导入二级数据库。由于二级数据库的构建基于大量原始数据的分析筛选,加上网络硬件条件的限制,手工获取生物信息数据会浪费大量的时间。实际上,网络中经常使用一种代理程序,它通过主控用户进行一系列的关键词设定,扫描特定的信息源,查找出用户感兴趣的特定信息。一个可行的解决思路就是让代理程序替代人进行数据查询和下载。??   b)数据集成。从数据管理角度来看,生物数据库中有多种数据类型,包括序列(核酸序列和蛋白质序列)、图形(蛋白质结构、序列曲线等)、图像(生物大分子3D结构)等。数据类型的多样化势必大大增加数据存储、检索、管理的复杂性。一个可行的解决思路就是利用XML技术进行数据集成。??   c)应用集成。一个完整的生物信息分析平台应该包含序列检索、序列比对、进化分析等基本分析功能。其中最关键技术便是应用软件的集成。生物信息软件集成方法主要有COM组件、COBAR、Web服务等。根据不同需求,采取不同的集成方法。??      2生物信息分析平台的多层体系结构模型(BIOCMSM)      2.1多层体系结构??   Internet和Intranet的迅猛发展对应用系统的运作方式产生了巨大的影响,从C/S到B/S模式,从两层演变到三层,从集中式发展到分布式。目前比较通用的分布式三层框架模型如图1所示。??   多层体系结构则是对三层框架模型的中间层,即业务逻辑层进行细化,引入组件及中间件的概念进行结构分层,或者根据业务的功能细化进行功能分层。??   2.2BIOCMSM??   2.2.1生物信息分析平台工作流程   为解决数据更新、数据集成及应用集成等问题,本文先给出一个生物信息分析平台的一般工作流程,如图2所示。      2.2.2BIOCMSM多层结构模型??   生物信息平台复合多层结构模型(BIOCMSM)是针对一般生物信息分析平台工作流程给出的一种复合C/S、B/S的多层体系结构模型。它主要是对数据层进行细化,增加数据处理层以解决生物数据的格式转换、数据处理等问题。多层C/S系统主要实现生物序列数据的自动下载、提交、更新、管理等功能;多层B/S系统主要实现生物序列数据的发布共享、检索、分析等功能。BIOCMSM模型如图3所示。??      1)数据源层(data resource layer)   包括提供系统数据及信息来源的所有异构数据源。具体物理存储方式又分为关系数据库(RDB)存储和各类文件(如flat file、三维结构图形等)存储。??   2)数据处

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档