- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据将给我们带来怎样的变化?
摘要:我们都听过这个预测:到2020年,电子数据存储量将在2009年的基础上增加44倍,达到35万亿GB。根据IDC数据显示,截止到2010年,这个数字已经达到了120万PB,或1.2ZB。
标签:大数据
我们都听过这个预测:到2020年,电子数据存储量将在2009年的基础上增加44倍,达到35万亿GB。根据IDC数据显示,截止到2010年,这个数字已经达到了120万PB,或1.2ZB。如果把所有这些数据都存入DVD光盘,光盘高度将等同于从地球到月球的一个来回——也就是大约480,000英里。
对于那些喜欢杞人忧天的人来说,这是数据存储的末日即将到来的不祥预兆。而对于机会主义者们而言,这就好比是个信息金矿,随着技术的进步,金矿开采会变得越来越容易。
走进大数据--一种新兴的数据挖掘技术,它正在让数据处理和分析变得更便宜更快速。大数据技术一旦进入超级计算时代,很快便可应用于普通企业,在遍地开花的过程中,它将改变许多行业业务经营的模式。
在计算机世界里,大数据被定义为一种使用非传统的数据过滤工具,对大量有序或无序数据集合进行的挖掘过程,它包括但不仅限于分布式计算(Hadoop)。
大数据已经站在了数据存储宣传的风口浪尖,也存在着大量不确定因素,这点上非常像“云”。我们请教了一些分析人士和大数据爱好者,请他们解释一下大数据究竟是什么,以及它对于未来数据存储的意义。
大数据走进历史舞台
适用于企业的大数据已经出现,这在部分程度上要归功于计算能耗的降低以及系统已具备执行多重处理的能力这样一个事实。而且随着主存储器成本的不断下降,和过去相比,公司可以将更多的数据存到存储器中。并且,将多台计算机连到服务器集群也变得更容易了。这三个变化加在一起成就了大数据,IDC 数据库管理分析师Carl Olofson如是说。
“我们不仅要把这些事情做好,还要能承受得起相应的开支”,他说。 “过去的某些超级计算机也具有执行系统多重处理的能力,(这些系统紧密相连,形成了一个集群)但因为要使用专门的硬件,它的成本高达几十万美元甚至更多。”现在我们可以使用普通硬件完成相同的配置。正因为这样,我们能更快更省得处理更多数据。
大数据技术还没有在有大型数据仓库的公司中得到广泛普及。IDC认为,想让大数据技术得到认可,首先技术本身一定要足够便宜,然后,必须满足IBM称之为3V标准中的2V,即:类型(variety),量(volume)和速度(velocity)。
种类要求指的是待存储数据的类型分为结构化数据和非结构化数据。量是指存储和分析的数据量可以很庞大。 “数据量不只是几百TB,” Olofson说: “要视具体情况而定,因为速度和时间的关系,有时几百GB可能就算很多了。如果我现在一秒能完成过去要花一小时才能完成的300GB的数据分析,那结果将大为不同。大数据就是这样一种技术,它可以满足这三个要求中的至少两个,并且普通企业也能够部署。”
关于大数据的三大误解
对于大数据是什么以及大数据能干什么存在很多误会。下面就是有关大数据的三个误解:
1、关系数据库无法大幅增容,因此不能被认为是大数据技术(不对)
2、无需考虑工作负载或具体使用情况,Hadoop或以此类推的任何MapReduce都是大数据的最佳选择。(也不对)
3、图解式管理系统时代已经结束。图解的发展只会成为大数据应用的拦路虎。(可笑的错误)
大数据与开源的关系
“很多人认为Hadoop和大数据基本上是一个意思。这是错误的,”Olofson说。并解释道: Teradata, MySQL和“智能聚合技术”的某些安装启用都用不到Hadoop,但它们也可以被认为是大数据。
Hadoop是一种用于大数据的应用程序,因为它是建立在MapReduce基础上的,所以引起了极大的关注。(MapReduce是一种用于超级计算的普通方法,之后经过了主要由Google资助的一个项目的优化,因此被简化并变得考究了。) Hadoop是几个紧密关联的Apache项目组成的混合体的主要安装启用程序,其中包括MapReduce环境中的HBase数据库。
为了充分利用Hadoop和类似的先进技术,软件开发商们绞尽脑汁研发出了各种各样的技术,其中很多都是在开源社区里开发出来的。Olofson 说“他们已经开发出了大量的所谓noSQL数据库,种类之多让人眼花缭乱,其中大部分都是键值配对数据库,能利用多种技术对性能或种类或容量进行优化。”
开源技术还没有得到商业支持。“所以在这方面还需要经过一段时间的发展完善,这一过程可能需要几年。基于这个原因,大数据可能需要一些时日才能在市场上走向成熟”他补充道。据IDC预计,年内至少有三家商业公司能以某种方式给予Hadoop支持。同时,包括Datameer 在内的几家企
您可能关注的文档
- 大学生网络外贸创业的发展现状及对策研究.doc
- 大学生网络使用情况调查报告1.doc
- 大学生职业生涯报告.doc
- 大学生职业生涯规划(三).ppt
- 大学生网络消费满意度影响因素的实证研究.doc
- 大学生激励调查报告.ppt
- 大学生职业生涯规划2认识自我.ppt
- 大学生职业生涯规划指导(一).ppt
- 大学生社会实践调查方法1.ppt
- 大学生职业发展与就业指导概论1.ppt3.ppt
- 2023年医用光学器具仪器项目可行性评估方案 .pdf
- 2023学年八年级数学第一学期期末综合测试试题含解析 .pdf
- 2023届河南省信阳市名校九年级化学第一学期期中检测模拟试题含解析.pdf
- 2023届福建省厦门市海沧区鳌冠学校物理九年级第一学期期末统考模拟试 .pdf
- 2023年六氟环氧丙烷项目评估报告 .pdf
- 2022年高考数学新题好题汇编 第3讲 函数与导数小题(原卷版=解析版).pdf
- 2022年广西壮族自治区南宁市数学七上期末统考试题含解析 .pdf
- 2022年湖北省华中学师大附中中考化学考试模拟冲刺卷含解析 .pdf
- 2022年福建省厦门市莲花中学数学七年级第一学期期末联考试题含解析.pdf
- 2023年高考第二次模拟考地理试卷(福建B卷)(解析版) .pdf
文档评论(0)