- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
优秀毕业论文,完美PDF格式,可在线免费浏览全文和下载,支持复制编辑,可为大学生本专业本院系本科专科大专和研究生学士相关类学生提供毕业论文范文范例指导,也可为要代写发表职称论文提供参考!!!
第七届(2009)两岸三院信息技术与应用交流研讨会论文报告集
生物信息数据格式和数据抽提技术在PALPP 中的应用
孟珍 胡良霖 黎建辉*
(中国科学院计算机网络信息中心科学数据中心北京100190 *通讯作者)
摘要:由中国科学院计算机网络信息中心、中国科学院植物研究所、中国科学院
深圳仙湖植物园“三方两地”共同合作研究建设的陆地植物发育系统系统发育平
台(PALPP )意在为科研人员提供数据和分析并举的工作平台,承担数据汇集和
面向实际科研工作应用的双重作用。PALPP 的应用数据涉及到核酸(DNA、
RNA)、蛋白等的相关数据。在数据的整合以及各处理模块输入输出处理中,涉
及多种生物信息学数据格式的应用和转换。本文针对陆地植物发育系统系统发育
平台(PALPP )涉及的生物信息数据格式和其抽提技术进行研究总结,比较了国
际生物信息学数据的主要存取式(GenBank、EMBL 和 SwissProt、FAST 和
NBRF、Intelligenetics 格式、PIR 格式等)和典型生物信息学处理工具的应用格
式特点,提出在生物信息学术的抽提方法并进行应用示例。
关键字:生物信息数据格式 数据抽提 PALPP
1 引言
生命之树(Tree of Life,TOL)是能将所有生物种类(包括现存的和灭绝的)联
系在一起的、蕴涵着巨量信息的系统进化树(Ciccarelli et al., 2006 )。由中国科
学院计算机网络信息中心、中国科学院植物研究所、中国科学院深圳仙湖植物园
“三方两地”共同合作研究建设的陆地植物发育系统系统发育平台(PALPP)注
重生物科研和信息技术队伍的联合攻关、注重生物信息技术在生物系统发育领域
的应用研究、注重生物系统发育研究框架的研究模式应用,以从陆地植物逐渐拓
展构建整个生物框架的TOL。PALPP 意在为科研人员提供数据和分析并举的工
作平台,承担数据汇集和面向实际科研工作应用的双重作用。实现系统树的流程
化构建,整合数据抽提、多重序列比对、编辑清洗、分模型构树、组装评估、可
视化编辑等系列公认的分析算法和模型,通过若干交互界面,实现系统树的自动
生成、辅助实验决策。平台依托中科院网络信息中心的数据环境和计算环境,用
户只需登陆定制相关的研究范围、分析模块和参数就可进行相应的数据应用和挖
掘工作。
PALPP 应用涉及到核酸(DNA、RNA)、蛋白等相关数据。PALPP 的基础数据主
要来自国际一级数据资源的抽提。因此,PALPP 在充分研究国际现有数据存取
格式的基础上来,探究切实可行的本地数据库的数据结构和数据抽提方式。
2 数据类型分析和数据库系统设计
从Margaret Dayhoff 和她在华盛顿特区的“美国生物医学研究基金会”(National
Biomedical Research Foundation,NBRF)在 1972 年收集第一条蛋白质序列开始,
278
第七届(2009)两岸三院信息技术与应用交流研讨会论文报告集
国际上不同的生物信息中心已经收集并标准化了大量的分子生物学数据。然而也
正是不同组织对数据的收集整理也就有了不同的存储格式和其中的转换以及在
这些数据中的抽提整合。以下总结了国际数据中的主要格式和特点为PALPP 本
地数据库的建
和更新抽提做准备。
2.1 GenBank 格式
GenBank 中的数据库条目中,描述给定条目的信息,包括文献、有关序列的功能信
息、mRNA 表达的组织和编码区的位置以及重要突变的位置。信息分为几个字段来组织,
每一个在开始的位置都有一个标示符,有些字段也可能有额外的亚字段。图 2 即是一条
GenBank 序列式样,其中 FEATURES 字段中的 source、misc_signal、mRNA 等即是亚字
段。
图 1 GenBank 序列条目格式
您可能关注的文档
最近下载
- 12J201平屋面建筑构造图集.docx VIP
- 陶瓷绝缘连接器.pdf VIP
- 土木专业英国规范NA+A1_2012 to BS EN 1993-2_2006.pdf VIP
- 海南优腾爱科医疗科技有限公司医疗器械研发生产环评报告表.docx
- DB31_T 416-2008 城市道路路名牌(法规规范).pdf VIP
- 电力井施工规范.docx VIP
- 2023年最新的李白赞美杨贵妃的诗句.docx VIP
- ESC+2024+心房颤动(房颤)管理指南解读课件.pptx VIP
- 2025四川乐山市五通桥区发展产业投资有限公司公开招聘11人笔试备考题库及答案解析.docx VIP
- 人工智能基础(国科技大)中国大学MOOC慕课 章节测验 客观题答案.docx VIP
文档评论(0)