海量数据爆发与挖掘.docVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
海量数据爆发与挖掘

海量数据爆发与挖掘   大数据。被人们用来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。而大数据时代则是指这一数据爆发时代的来临。科技的发展使数据正在以惊人的速度迅速膨胀,越来越多的企业通过数据来解决各种问题,数据的发展逐渐决定着企业的未来。越来越多的企业意识到数据的重要性。大数据时代带来的将是一场革命。庞大的数据资源使得各个领域开始了量化进程。无论学术界、商界还是政府,所有领域都将开始这种进程。在庞大的数据作为依据的条件下,经过统计与分析。人类的行为将变得像自然规律一般可以预测,这也正是当下各大社交媒体越来越重视数据的重要原因。   随着社交网络的崛起,很多网友对在线分享信息的热情越来越高,吃喝玩乐、心情、生活体验。无不成为了分享的对象。网友上传的照片和评论信息,对商家有很重要的价值。   大数据的四个“V”   人类自从诞生以来就在源源不断地创造着各式各样的数据。尽管数据挖掘的工作人类已经做了几十年,但是“大数据”与我们通常所说的“数据”还是有显著的不同。关于大数据的特点,行业内通常用四个V来概括:   第一个V——Volume。数据量巨大。从电脑硬盘的单位我们就可以看出现在数据的发展速度。前些年电脑配80G的硬盘就已经很大。现在电脑动辄250G、500G的硬盘。甚至IT、2T硬盘的使用者也大有人在。再看现在数据容量的单位——GB、TB、PB、EB、ZB、YB,每个单位间以024的倍数递增。据统计,人类生产的所有印刷材料的数据量是20GPB,而历史上全人类说过的所有的话的数据量大约是5EB。可以想象以ZB、YB统计的数据量将会是多么庞大。   第二个V——Variety。数据类型多样。数据类型通常分为两类:—是结构化数据。二是非结构化数据。最常见的结构化数据是以文本为主的数据。但随着社交类网络的兴起,越来越多的数据不再只是单一的以文本形式出现,来自于社交网络、物联网、电子商务等的博文信息、音频信息、视频信息,图片信息、地理信息等等,多种多样的数据类型对数据的处理能力有了更高的要求。   第三个V——Value。数据价值密度较低。数据价值密度的高低与数据总量的大小成反比,以视频监控为例,一部长达24小时的视频监控。虽然能反映当天的路况信息,但并不能反映更多的信息。但如果这个监控的信息达到一周或者一个月,那么就能从视频中分析出更多的内容,如每周的路况高峰为哪几天、某天中的哪个时段是高峰等等,这些信息只从一部视频中是无法得到的。面对海量的数据,如何将信息更加有限的提取出来。即海量数据的提纯工作是大数据时代下亟待解决的一下难题。   第四个V——Velocity。数据处理速度。这是大数据区别于传统数据挖掘最显著的特征。根据IDC的一份名为“数字宇宙”的报告。预计到2020年全球数据使用量将会达到35.2ZB。在如此量级的数据面前,如果没有高效的数据处理速度,那企业便会被社会所淘汰,大数据时代数据的处理效率就是企业的生命。   社交网络下的大数据   大数据时代给企业带来的最大好处就是让企业拥有了预见未来的能力。2012年5月18日Facebook股票上市,Facebook IPO后其创始人扎克伯格身价300亿美元。在5月18日之前,几乎没有人敢说自己有把握去预测Facebook上市当天股价的走势,但是Twitter却如拥有预言能力般地预测了未来股价走势。   社交媒体监测平台DataSift监测了Facebook IPO当天Twitter上的情感倾向与Facebook股价波动的关联。例如,在Facebook开盘前Twitter上的情感逐渐转向负面,25分钟之后,Faeebook的股价便开始下跌。而当Twitter上的情感转向正面时,Facebook股价在8分钟之后也开始了回弹。最终,当股市接近收盘时,Twitter上的情感转向负面,10分钟后Facebook的股价又开始下跌。最终的结论是:Twitter上每一次情感倾向的转向都会影响Facebook股价的波动,延迟情况只有几分钟到20多分钟。   这仅仅只是基于社交网络产生的大数据“预见未来”的众多案例中的一个,事实上大数据所能带来的巨大商业价值已经被人认为是将引领一场足以匹敌20世纪计算机革命的巨大变革。2012年2月,《纽约时报》撰文称,大数据正在对每个领域都造成影响,在商业、经济和其他领域中,决策行为将日益基于数据分析做出,而不是像过去更多凭借经验和直觉。而在公共卫生、经济预测等领域,大数据的预见能力已经开始崭露头角。   大数据时代,企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合。系统全面的分析让企业拥有了预测未来的能力,做出决策

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档