- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
生物信息之大数据处理
摘要:
计算机技术的进步使得人们发现很多生物学问题可以使用计算机迅速有效的解决。于是,
大量计算机科学家/数学家/统计学家涌入生物学这片处女地,使用算法和统计学解决各种各
样的生物学问题。而大数据的到来,正给这片处女地带来了新的机遇。这篇论文要讲的,就
是生物信息与大数据处理之间的关系和处理之道。
主题词:
大数据,生物信息,数据库,数据挖掘,基因测序,蛋白质组学。
一.生物信息与大数据之间的紧密联系
生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析
的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学
的核心领域之一。目前的生物信息学基本上只是分子生物学与信息技术(尤其是因特网技术)
的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,
研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利
用(计算、模拟)。生物信息学作为一门新的学科领域,它是把基因组DNA序列信息分析
作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋
白质的功能进行必要的药物设计。基因组信息学,蛋白质空间结构模拟以及药物设计构成了
生物信息学的3个重要组成部分。从生物信息学研究的具体内容上看,生物信息学应包括这
3个主要部分:⑴新算法和统计学方法研究;⑵各类数据的分析和解释;⑶研制有效利用和
管理数据新工具。
生物信息的发展伴随着计算机计算能力提高和生物学数据的积累。当然还有数学理论和
算法在生物学数据的应用。目前主要的是在数据处理,数据挖掘和预测。比如基因组组装,
基因预测和蛋白结构预测。
计算机技术的进步使得人们发现很多生物学问题可以使用计算机迅速有效的解决。一个
例子就是人们七十年代开始使用数据库存储已知的DNA/蛋白质序列,随之而来的问题是如
何快速搜索这些序列,而后人们又想知道如何理解DNA/蛋白质的序列,再往后人们想图形
化的看到这些序列,再往后。。。就这样,大量计算机科学家/数学家/统计学家涌入生物学
这片处女地,使用算法和统计学解决各种各样的生物学问题。
生物技术的进步带来基因组学/蛋白组学/各种组学的出现,使得海量的数据积累变得非
常迅速,而不得不使用计算机和统计学来处理。人类基因租的测序之所以是里程碑式的事件,
并不光是因为我们测出了人基因组。基因组的出现同时也标志了生物学大数据时代的黎明到
来。人类基因组有3G,测一百倍覆盖率就是300G的序列数据。二代的测序技术让我们生
成数据的能力指数级放大。到现在,一个研究生一礼拜生成和处理数百G的数据是司空见
惯的事。这样规模的数据,没有生物信息学的工具和高性能计算机是不能处理的。
就根据以上推论,生物信息与大数据处理密不可分。
二.大数据的分析
从所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行
分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。那么越来越多的应用涉
及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增
长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息
是否有价值的决定性因素。基于如此的认识,大数据分析普遍存在的方法理论有哪些呢?
1. 可视化分析。大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他
们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数
据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。
2. 数据挖掘算法。大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基
于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全
世界统计学家所公认的各种统计方法(可以称之为真理)才能深入数据内部,挖掘出公认的
价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据,如果一个算
法得花上好几年才能得出结论,那大数据的价值也就无从说起了。
3. 预测性分析。大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘
出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据。
4. 语义引擎。非结构化数据的多元化给数据分析带来新的挑战,我们需要一套工具系
统的去分析,提炼数据。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取
信息。
5.数据质量和数据管理。大数据分析离不开数据质量和数据管理,高质量的数据和有
效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价
值。
文档评论(0)