大文数y据入门.docxVIP

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据:落地正当时我们正处于一个信息大爆炸的时代:宽带普及带来的巨量日志和通讯记录,社交网络每天不断更新的个人信息,视频通讯、医疗影像、地理信息、监控录像等视频记录,传感器、导航设备等非传统 IT 设备产生的数据信息,以及持续增加的各种智能终端产生的图片及信息,这些爆炸性增长的数据正在充斥整个网络。据权威市场调查机构IDC预测,未来每隔 18 个月,整个世界的数据总量就会翻倍;到 2020 年,整个世界的数据总量将会增长 44 倍,达到 35.2ZB(1ZB=10亿TB)。“大数据”时代正在来临!“大数据”的价值所谓“大数据”,一般具有几个特点:首先是数据量很大,已经从 TB 级跃升至 PB 级;其次是区别于传统的数据结构,“大数据”时代的数据结构比较复杂,超过 80% 都是非结构化数据,比如道路上的视频监控数据、网上的流媒体数据、物联网中 RFID 的感应数据,以及社交网络上产生的各种数据等。这两个特点,给数据存储、管理和挖掘带来了困难。第三,数据更新快,比如视频监控每秒钟都在进行,微博随时都有人在更新;最后,是对数据的随机访问,这些更个人化的数据在存储后被再次访问的时间是不确定的。这两点就要求新的IT系统更够更快地处理数据,并且能够更智能地保存和管理数据。比如在某一天,你需要从监控录像中找出某个人,那么就需要能够迅速地查找、调用、分析之前保存的海量数据。“大数据”的这些特点,对数据搜索及管理提出了更高要求,因为在“大数据”时代只有经过分析提炼的关键数据才有价值。全球知名咨询机构麦肯锡在关于“大数据”时代的研究报告中指出,数据已经渗透到了每一个行业和业务职能领域,逐渐成为重要的生产因素;人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。在互联网时代,数据本身就是资产,而“大数据”则意味着这些资产正在变得庞大无比。虽然云计算可以为数据资产提供保管的场所和访问的渠道,但如何盘活数据资产,使其为国家治理、企业决策乃至个人生活服务,则是“大数据”时代的核心问题。这就好比一座日益膨胀的矿山,虽然其中蕴含着大量的贵金属,但是要想获得这些价值,就必须解决筛选冶炼的问题。“大数据”对IT解决方案提出更高要求在“大数据”时代,超过 80% 的数据都呈现非结构化状态,这些数据正在持续不断地增加,并且需要长时间存储,非热点数据也会被随机访问。这种情况与传统的、基于关系型数据库的核心数据存储方式有显著的差异。这种差异,使得传统的数据存储和管理解决方案无法胜任“大数据”时代的分析、管理和挖掘工作。传统的关系型数据库以及数据分析软件处理的结构化数据通常是GB级别的,很难适应“大数据”时代 TB、PB 级复杂数据类型的检索分析。同时,因为“大数据”时代数据每时每刻都在快速增长,传统解决方案也无法适应这种近乎无限的扩张性。为了适应“大数据”时代的到来,企业需要从技术、应用、硬件等各个层面做好准备,采用更新的IT解决方案,才能满足“大数据”收集、存储、管理和分析的要求。“大数据”时代的IT解决方案,需要容纳数量庞大的用户和数据生产者,能够从企业及社区网络、移动智能终端、传感器及物联网、定位及地理信息设备中获得大量的视频、语音、图片、文字、产品信息、地理信息、时间信息等非结构化数据,并对这些海量复杂数据进行分析和挖掘,从而获得真正有价值的数据用于后续的经营。这种应用模式,要求“大数据”时代的IT解决方案具备可变的数据接口和高效的数据导入、管理、分析、统计技术;能够支持PB级别的数据、支持非结构化以及结构化数据、支持每秒万次级查询,拥有更高的系统可靠性以及更高的统计分析效率,这就对计算能力、内存数据处理能力和管理能力提出了非常高的要求。对于企业而言,“大数据”时代爆炸性增长的数据既是巨大的机遇,也将是巨大的挑战。在“大数据”时代,IT解决方案既要能够更高效、低成本的存储和管理,也要能够更快速、灵活及稳定的检索和分析。而在这些方面,已经有不少厂商在努力围绕大数据整合解决方案,英特尔就是其中的佼佼者。首先,IA 架构广泛的普及率可以为企业提供更高的一致性,是承载和应对“大数据”的理想平台。英特尔? 至强? 处理器拥有更高的计算性能和内存数据处理能力,以其为核心的服务器和存储系统具备开放式、普及性、易优化、灵活等特点,具备无可比拟的扩展性,非常适合应对“大数据”的挑战。除此之外,英特尔还有包括 Hadoop 这种开源架构等软件方案(如编译器、函数库等),也将对“大数据”的处理提供了更高的效能。这些软件方案通过优化底层算法,可实现更高的应用效率和更均衡的计算存储分布;与英特尔硬件技术相结合,可以提供更高的平台性能。同时,还能提供跨数据中心的HBase数据库虚拟大表功能,并且实现了 HBase 数据库复制和备份功能,在功能方面也更适应“大数据”时代管理

文档评论(0)

wofu + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档