大数据背景下生物信息学数据库建设研究(2).docxVIP

大数据背景下生物信息学数据库建设研究(2).docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据背景下生物信息学数据库建设研究 摘要:随着生物学与当代先进信息技术的不断融合,生物信息学和生物技术不断进步,生物信息学数据库内的的数据迅速增加,如何对数据库内的生物学知识进行合理的学习理解,发现存在于生物界的各种规律将成为重中之重。面对数据量的爆炸式增长,我们对于生物信息数据的处理面临着更大的挑战,本文将主要叙述在现如今大数据背景下如何利用好大数据技术为生物学数据库进行建设,使得生物学研究变得更加高效便捷。 关键词:大数据、生物信息学数据库、创新、技术应用 大数据时代的来临,极大地改变了我们的生活,大数据技术已经渗透到生活的方方面面,金融、交通、养殖、医学等领域都有大数据的影子。大数据技术有着四大特点:价值、数量、种类、速度。面对着日益增长的数据量,对我们数据处理的能力提出了一个巨大的挑战,如何做好这些数据的储存、传递、利用工作将是一大难题,使得正常的学术生活不被庞大的数据量所困扰。大数据技术恰好提供了一个良好的契机。数据库技术应用了信息技术的核心,对数据库的结构、存储、设计、管理、使用层面进行研究,结合相关理论知识对数据库中的数据进行管理。合理的使用好数据库技术,能帮助我们在这个大数据时代提高对数据的处理应用能力,数据库的构建为储存在计算机中的大量生物信息学数据的管理提供了最方便快捷科学的处理方法,既能够最大限度的保证大量的生物信息学数据不被混乱丢失,又能够在处理中减少不必要的步骤,从而整体提高数据处理的效率。 生物信息学数据库的分类及特点、 随着科技的不断发展,人们对于各领域知识的探索也在不断加快,在生物信息学的研究上也越来越深入,数量庞大的研究成果汇总出了许多种类的数据库。一般来说,大致将生物信息学数据库分为两类,分为一类数据库和二类数据库,随着网络的不断普及,这些数据库中的数据也可通过网络进行查阅。一级数据库中的数据比较简单,是科研人员在实验中直接获取到的数据,并进行简单的整理加注。例如在国际上有重要地位的Genbank一级核酸数据库,与之相同的还有欧洲分子生物学实验室数据库(EMBL)和日本的DNA数据库(DDBJ),三个数据库每天都会进行数据的交流,使得三个数据库中的数据保持最新且相同。二级数据库相较于一级数据库,所得的数据更加复杂,它以一级数据库中的数据为基础,针对某一特定项再进行更深层的钻研。根据所针对点的不同,二级数据库的种类也是多种多样,人类基因组图谱库(GDB)就是典型的二级数据库。 生物信息学数据库呈现出几个特点:(1)生物信息学数据库存在种类上的多样性,在生物科学的各领域上都有所涉及。(2)生物信息学数据库数据的高度复杂性,不仅仅有相关的实验数据,更有相关的注释、文献等供学习者理解的内容。(3)生物信息学数据库的增长迅速,数据更新快,有些数据库甚至每天都在更新内容,所有的数据库都呈现出更新周期短,涵盖面广的特点,同时数据库的规模在不断的扩大,可供给广大科研人员以及学者的参考资料越来越多。(4)生物信息学数据库越来越网络化,随着互联网技术的不断发展,生物信息学数据库也与互联网展开了深度融合,几乎所有的数据库都可以在网络上进行访问,在门户网站上可以找到各数据库的链接,各大数据库之间也可以相互连接,学者可以迅速的查询到自己想要的各种生物学信息,少走弯路。 大数据背景下生物信息学数据库的搭建 (一)、大数据与传统数据统计的区别 传统的数据统计需要建立在一定的数学模型上,应用相应的算法从而获取到想要的准确结果。在这个过程中,如果因果关系以及算法没有选择好,数据分析将会出现较大的纰漏。大数据技术的出现,解决了这一大问题,但前提是必须有足够大的数据量,在保证数据量之后,大数据技术可以无视严格的因果关系,通过计算得出数据分析结果。这一点从我们的日常生活中也可以看的出来,例如输入法就可以根据我们平时输入的文字来分析用户的输入习惯,从而可以做到更精确的输入辅助。利用好大数据技术,在生物信息学数据库的构建上将起到事半功倍的效果。 (二)、架构的选择 随着生物学研究的不断深入,数据量越来越庞大,所处理的全量数据也将不再是单一的一维分析,需要将数据综合到一个平台上进行多维的分析,通过大数据加持,就会优先选择一定的混搭架构。第一步我们能可以使用Nosql技术对一些比较简单的,研究价值不高的生物学数据进行筛选,并从中提炼或者汇总到一些相对更有价值的数据,从而提高样本数据的价值密度,通过提炼,又能降低数据的数量,为将来的检索提供方便。第二步再应用MPP对筛选总结出来的高价值高密度的数据进行统计分析,以求探索出其中的一些规律。混搭架构的优点就在于能够处理比较大规模的复杂数据,不再使用单一的数据处理方式,更加高效的进行数据整合。 (三)、与多媒体技术相结合的数据库搭建 伴随着社会的发展,各项技术间也越来越讲究融合发展,在大数据的背

文档评论(0)

论文顾问 + 关注
实名认证
服务提供商

从事办公室文字工作,提供论文格式排版 、专业学术论文参考资料、文章写作、论文答辩PPT模板、会议筹备指导等服务,经验丰富,已从事七年。互相信任,保证质量,全程包修改,负责到通过。 微X号:lhg511823

1亿VIP精品文档

相关文档