云计算环境下大数据及其智能处理技术1.docxVIP

云计算环境下大数据及其智能处理技术1.docx

  1. 1、本文档共2页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
云计算环境下大数据及其智能处理技术 1、什么是大数据 “大数据”“是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。 “大数据”首先是指数据体量(volumes) 大,指代大型数据集,一般在10TB 规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次是指数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。 IBM将大数据归纳未三个标准,即3V:类型(variety)、数量(volume)和速度(velocity)。其中类型(variety)指数据中有结构化、半结构化和非结构化等多种数据形式;数量(volume)指收集和分析的数据量非常大;速度(velocity)指数据处理速度要足够快。 大数据对于悲观者而言,意味着数据存储世界的末日,对乐观者而言,这里孕育了巨大的市场机会,庞大的数据就是一个信息金矿,随着技术的进步,其财富价值将很快被我们发现,而且越来越容易。大数据本身是一个现象而不是一种技术,伴随着大数据的采集、传输、处理和应用的相关技术就是大数据处理技术,是系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的一系列数据处理技术。 2、 “大数据”的缘由 根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数据摩尔定律),这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量,预计到2020年,全球将总共拥有35亿GB的数据量,相较于2010年,数据量将增长近30倍。这不是简单的数据增多的问题,而是全新的问题。举例来说,在当今全球范围内的工业设备、汽车、电子仪表和装运箱中,都有着无数的数字传感器,这些传感器能测量和交流位置、运动、震动、温 度和湿度等数据,甚至还能测量空气中的化学变化。将这些交流传感器与计算智能连接起来,就是目前“物联网”(Internet of Things)或“工业互联网”(Industrial Internet)。在信息获取的问题上取得进步是促进“大数据”趋势发展的重要原因。 3、 “大数据”的辨正 随着物联网和云计算的研究和应用不断深入,对大数据的研究越来越引起广泛的重视,对大大数据及其处理技术产生了很多错误的认识,业界有大量关于何谓大数据及它可以做什么的说法,其中有很多是相互矛盾的,都存在一定的片面性,根据 IDC2011年市场研究报告,主要有三个典型的错误说法: 1)关系型数据库不能扩展到非常大的数据卷,因此不被认为是大数据的技术; 2)无论工作负载有多大,也无论使用场景如何,Hadoop或推而广之,任何Mapreduce的环境)都是大数据的最佳选择; 3)基于数据模型的数据库管理系统的时代已经结束了,数据模型必须大数据的方式来建立。 结论是新型关系型数据库既可解决结构化和非结构化数据,也可满足大数据的数量和速度要求,相比较而言的Hadoop型解决方案是片面的,不能解决很多的关系型应用环境问题,不一定是最佳选择,大数据管理和处理有更优的解决方案和技术路线。 4、 “大数据”处理技术 大数据时代的超大数据体量和占相当比例的半结构化和非结构化数据的存在,已经超越了传统数据库的管理能力,大数据技术将是IT领域新一代的技术与架构,它将帮助人们存储管理好大数据并从大体量、高复杂的数据中提取价值,相关的技术、产品将不断涌现,将有可能给IT行业开拓一个新的黄金时代。 大数据本质也是数据,其关键的技术依然逃不脱:1)大数据存储和管理;2)大数据检索使用(包括数据挖掘和智能分析)。围绕大数据,一批新兴的数据挖掘、数据存储、数据处理与分析技术将不断涌现,让我们处理海量数据更加容易、 更加便宜和迅速,成为企业业务经营的好助手,甚至可以改变许多行业的经营方式。 1)大数据的商业模式与架构----云计算及其分布式结构是重要途径 大数据处理技术正在改变目前计算机的运行模式,正在改变着这个世界:它能处理几乎各种类型的海量数据,无论是微博、文章、电子邮件、文档、音频、视频,还是其它形态的数据;它工作的速度非常快速:实际上几乎实时;它具有普及性:因为它所用的都是最普通低成本的硬件,而云计算它将计算任务分布在大量计算机构成的资源池上,使用户能够按需获取计算力、存储空间和信息服务。云计算及其技术给了人们廉价获取巨量计算和存储的能力,云计算分布式架构能够很好地支持大数据存储和处理需求。这样的低成本硬件+低成本软件+低成本运维,更加经济和实用,使得大数据处理和利用成为可能。 2)大数据的存储和管理----云数据库的必然 很多

文档评论(0)

185****7617 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档