1%人类基因组数据库系统.pdfVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据库系统及建库技术 1%人类基因组数据库系统 黄小兵陈峰胡光强康宁段举洪星李涛 肖宇翔秦海鸥董伟王俊杨焕明 (中国科学院北京基因组研究所暨华大基因研究中心,北京101300) 摘要1%人类基因组数据库系统,以一种系统化、图形化和全面性的方式展示 了我国承担的l%人类基因组计划的序列数据和相关注释信息。该数据库系统包括 数据可视化模块、搜索引擎模块、数据分析模块和输入输出模块等,主要运用了 oracle8i数据库技术,采用B,S/s三层结构模式。以该数据库为基础,结合水稻基因 组数据库,我中心正在构建国家基因组信息系统,充分发掘和利用海量的基因组、 蛋白组数据。本篇文章描述了I%HGP数据库系统的基本架构及其为生物及医学研 究者提供的服务。该数据库由中国科学院北京基因组研究所(暨华大基因研究中 心)开发和维护,网址是http://bm.genomics.org.cn/hgo。 关键词 基因组数据库人类基因组计划生物信息学 1.介绍 由美、英、日、德、法、中6国参与的国际人类基因组计划(以下简称为HGP),其核 心内容是测定人类基因组的全部DNA序列,从而获得人类全面认识自我最重要的生物学信 体短臂上的约3000万个碱基),使中国成为第6个国际人类基因组计划参与国,也是参与该 计划的唯一的发展中国家。 HGP所倡导的“全球合作、免费共享的精神已成为自然科学史上国际合作的楷模, 果公布于它们的网站中,并发展成为国际性的数据中心。 该数据库系统为国内外生物、医学研究者提供了一个数据和应用平台。当基因组序列公 布于世时,众多的生物医学研究者关心的是如何获得他们所需的、系统的、全面的、图形化 的基因组数据信息,自然,这也就成为基因组数据库建设的目标。我们通过提供包括1%HGP 测序信息和注释信息的数据库和浏览器来积极解决这些问题,下面将一一介绍其相关内容。 2.1%HGP基因组信息概况 从基因组序列中,能够得到的生物学信息有哪些呢?在1%人类基因组计划数据库及浏览 器中,主要考虑基因组的几个大特性:GC含量分布,CpG岛,重复序列和基因等,以下简 要介绍这些特性的生物学含义: (1)序列基因组序列数据是一切基因组分析与研究的数据基础。 (2)GC含量GC含量与各种生物学特性具有相关性,比如基因的密度、重复序列的 组成等,甚至与细胞遗传学中不同的染色体带也有关系。但以前这些研究只能是间接的,而 基因组测序的结果使直接而全面地探索GC含量的变化成为可能。从浏览器中可以发现, 1%HGP的GC含量正围绕着基因组平均含量41%这个值来回波动。 低,出现率仅为预计值的20%,这是由于其甲基化的原因。但足,在基因组中仍会有许多CpG 岛,在这些岛中CpG没有经过甲基化,发生的频率非常接近于理论值。而且,许多CpG岛 位于基因的5’端,这对于基因预测具有重要的指导意义。从浏览器中可以看出,CpG岛的 起始端用竖线标出。 (4)ncRNA RNAs,非编码RNAs)是基因的另外一种最终产物,虽 ncRNA(Noncoding 然生物学家经常把基因与其编码的蛋白质联系起来。几种主要的ncRNA是:转运 它们在mRNA剪切、翻译等过程中起着举足轻重的作用。 符)解释为基因组包含了大量的重复序列。对于人类基因组来说,重复序列至少占一半以上, 而编码序列却不足5%。重复序列并非垃圾,实际上它们包含了丰富的生物进化信息。人类 的大多数重复序列来源于转座单元,其中三类转座予以RNA为媒介转座,一类直接以DNA LINE占更大的比重。 (6)EST EST(ExpressedSequenceTags,表达序列标签)是基因组中被转录的部分, 人类基因的90%以上。由于EST与基因的关系,EST数据被用来发现新的基因。在浏览器的 细节页面中,可以看到属于同一个基因的EST数据用横线相连。 Nucleotide (7)SNPSNP(Single 类全基因组中稳定的多态位点,代表了不同个体之问最大的遗传差异。不同的人群有不同的 SNP分布特征,这是种族起源、遗传疾病易感性、外貌生理特征等方面的差异在基因组水平 上的表现。SNP的研

您可能关注的文档

文档评论(0)

bb213 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档