何为真正的大数据.PDFVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
何为真正的大数据.PDF

第 章 1 何为真正的大数据 似乎每个人都把大数据挂在嘴边,甚至对许多人来说,大数据是需要考虑的头等要务。 因此,有人认为,每个人都知道何为大数据。其实不然。尽管大数据有各种各样技术上的 定义,但大多数人仍然不确定大数据的大小与常规数据库的大小之间确切的界限。这给介 绍和探索大数据的发展,尤其是定义大数据项目参数带来一定困难。 本章将探讨对“大数据”概念的不同解读。 1.1 技术层面的定义 大数据并不只是存储规模从吉字节(gigabyte,GB)到太字节(terabyte ,TB) 的简单的数 量级增长,尽管数据集仍如预期增长迅速,这一点将在下一章详细阐述。更确切地讲,大 数据是各类数据集合的汇总,包括一些结构化和非结构化数据,一些由物理数据源转换为 在线数据集的数据集,以及事务型和非事务型数据库。来源多种多样,包括一些自产数 据和第三方数据。通常数据集的存储模式存在差异,缺乏一致性。一般来说,大数据的 处理繁冗而复杂,支出明显过高,即便并非完全行不通,现有的运算技术也很难支持大 数据计算。 此外,在技术上,数据集合达到何种规模才符合大数据标准尚未达成共识。而技术领 域内部更倾向于从描述数据特征、衡量数据规模、计算处理大规模数据量来定义大数据。 2001 年美国 Gartner 公司(原为 Meta 集团) 的一份报告中对大数据进行了定义,强调大 数据必须具备 3V 特征,即容量大(Volume)、多样化(Variety)和速度快(Velocity) 。现在,有 机构在 3V 之外又定义了第 4 个“V ”——真实性(Veracity),用以强调数据质量的重要性。 本质上,大数据是需要使用新工具来计算的任何规模的数据集。因此,大数据只是一 个相对的概念,今天被定义为“大”的数据未来可能只是“一般”甚至“小”规模的数据。 所以,在数据前面加上“大”字作为修饰语并不恰当,也并无大用。大多数业内专家 预计不久的将来,这个“大”字将会被完全舍弃,因为它无法准确地描述大数据概念的本 质。真正让大数据产生价值的是它将人、地点和事物广泛地连接起来,这在以前无论以何 2 大数据策略 如何成功使用大数据与 10 个行业案例分享 种方式协调都无法实现。 即便如此,大数据一般以“太字节”为单位。这并非静态的测量。通常是指在规定的 时间周期内,例如每周,数据中心不断流入的或不断增长的数据流。相反,根据Rackspace 公司的信息图,如图 1-1 所示,数据增长十分迅速,预计每天以 2 621 440 太字节的速度增 长,通常在很短时间之内,大数据的静态测量变得可有可无。该信息图也可以从 http: ///blog/exploring-the-universe-of-big-data-infographic/找到。 1 图 1-1 该信息图 上部的计数器显示,自用户点开信息图起,数据宇宙中增长的太字节量。计 数器很好地让我们全面感受到数据增长速度之快。点击不同行星,可以看到数据宇宙 中不同类别的数据规模,与整体生成的数据规模对比(本图表示为太阳) ,例如垃圾电 子邮件、Google 搜索索引以及 Facebook 1 该图由 Rackspace 公司提供。概念及研究由多米尼克·史密斯(Dominic Smith)提供;设计与绘制由 Legacy79 公司提供。 第 1 章 何为真正的大数据 3 我们知道更大规模的数据即将到来,但是数据集太大,尚未找到常见的单位来衡量。 在此之前,将采纳惯用的单位:泽字节(zettabyte,ZB)和尧字节(yottabyte,YB) 。让我们来 了解一下尧字节,它等于千万亿吉字节(gigabyte,GB)或 1000 的 8 次方字节,即 1 后面跟 着 24 个零。借助图 1-2 可以看到尧字节(YB)与每个存储容量单位的转换。 2 图

文档评论(0)

shiyouguizi + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档