大数据定义.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据(Big Data)是指那些超过传统数据库系统处理能力的数据。它的数据规模和转输速度要求很高,或者其结构不适合原本的数据库系统。为了获取大数据中的价值,我们必须选择另一种方式来处理它。 数据中隐藏着有价值的模式和信息,在以往需要相当的时间和成本才能提取这些信息。如沃尔玛或谷歌这类领先企业都要付高昂的代价才能从大数据中挖掘信息。而当今的各种资源,如硬件、云架构和开源软件使得大数据的处理更为方便和廉价。即使是在车库中创业的公司也可以用较低的价格租用云服务时间了。 对于企业组织来讲,大数据的价值体现在两个方面:分析使用和二次开发。对大数据进行分析能揭示隐藏其中的信息,例如零售业中对门店销售、地理和社会信息的分析能提升对客户的理解。对大数据的二次开发则是那些成功的网络公司的长项。例如Facebook通过结合大量用户信息,定制出高度个性化的用户体验,并创造出一种新的广告模式。这种通过大数据创造出新产品和服务的商业行为并非巧合,谷歌、雅虎、亚马逊和Facebook,它们都是大数据时代的创新者。 大数据的特征 作为一个包罗万象的术语,“大数据”相当的含糊不清。同样的,“云”这个概念也涵盖了不同的技术。大数据系统的输入端可以列一个极长的表,包括了社会网络、Web服务器日志、流量传感器、卫星图像、广播音频流、银行交易、摇滚音乐MP3、网页的内容、政府文件扫描、GPS路线、金融市场数据等等。而这些数据本质上并非是相同的东西。 IBM公司把大数据的特征概括成三个“V”,也就是规模(Volume),快速(Velocity)和多样(Variety)。这三个方面是观察数据本质和软件处理平台的有用视角。 规模(Volume) 能处理大数据所获得的好处在于能对大数据进行分析。更多的数据强于更好的模型,如果你的预测模型可以考虑到300个变量而非仅仅6个变量,其预测能力多半能更为准确。 大数据的规模是传统IT架构所面临的直接挑战。它要求可扩展的存储和分布式的方法来完成查询。许多公司已经拥有大量的存档数据,但却没有能力来处理它。传统的关系数据库无法处理大数据的规模,目前可选择的方法包括大规模并行处理架构、数据仓库、或类似Greenplum的数据库、以及Apache Hadoop解决方案。其中,数据仓库比较适合于预先确定的数据结构和变化缓慢的数据。而Apache Hadoop则没有这些限制。 Hadoop的核心是一个分布在多个服务器上的计算平台。它作为开放源码首先由雅虎开发并发布,它是谷歌所提出的MapReduce方法的实现。 Hadoop的MapReduce包括了两个阶段:向多个服务器和操作系统分发数据,即map阶段,然后重组并行计算结果,即reduce阶段。 Hadoop利用自身的分布式文件系统(HDFS)来存储数据,这使得多个计算节点能获取数据。一个典型的Hadoop使用模式包括三个阶段:加载数据到HDFS、MapReduce操作、从HDFS检索结果。这个过程本质上是一个批处理,适合于分析或者是非交互式的计算任务。正因为如此,Hadoop本身不是一个数据库或数据仓库的解决方案,而是分析的辅助。 最知名的Hadoop的用户之一是Facebook。它的MySQL数据库存储核心数据。然后再反映到Hadoop系统进行计算。计算结果会再次转移到MySQL,以提供给用户的页面使用。

文档评论(0)

yyh892289 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档