大数据分析浅析.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据分析浅析   摘 要:随着移动互微博、LBS、UGC等新型信息发布方式的不断涌现,数据正在快速的膨胀和增长。大数据的规模和数据形式给数据存储、管理以及数据分析带来了极大的挑战,数据的管理和分析方式也在改变。大数据分析和传统数据分析既有不同,又可相互参考,借鉴,本文试图从概念上、存储、分析方法、分析工具等方面来阐述大数据分析和传统数据分析的不同。   关键词:大数据、数据分析   前言   随着移动互联网、物联网、云计算的等领域的快速发展,数据正义前所未有的速度增长着,2011年美国著名的咨询公司麦肯锡发布了《大数据:下一个竞争、创新和生产力的前言领域》的研究报告,报告指出所有领域的企业数据存储量至少达到了100TB,并且多数部门已经超过了1PB。并且指出,大数据在医疗领域每年能够产生3000亿美元的潜在价值,在零售业能够增加60%的营业额。到2020年,在美国,基于地理位置的LBS将催生8000亿美元的市场空间。IDC研究表明,数字领域存在着18000亿GB的数据。企业数据正以55%的速度逐年增长。如今,只要两天就能创造出自文明诞生以来到2003年所产生的数据量,现在企业正在经历规模化、多样化、高速化的数据挑战,越来越多的事物将以数据的形式存在,大数据时代已经来临!大数据是人们在大规模的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的,以数据说话是互联网的发展趋势,数据将成为衡量一切的标杆,大数据和分析正在成为企业IT规划的核心,谷歌首席经济学家宣称:数据分析元正成为21世纪最性感的职业。然而,大数据越是火热,我们越是对大数据有深入的了解,避免过度炒作带来的危险,本文首先介绍大数据的概念,然后介绍大数据分析和传统数据分析的不同,以及常见的大数据分析方法。   大数据的作用和意义   大数据的目前为止,没有一个公用的定义,不过大多数的定义都承认大数据的三个特征,即3V特性。首先是数据量(volumes)大,指规模超过了单个计算机的存储和处理能力。其次是数据类别多样化(variety),数据来源变得多样化,数据种类和格式也在日渐丰富,已经冲破了以前所限定的关系数据库所存储的结构化数据范畴,囊括了半结构化和非结构化数据。最后是数据处理速度高速化(velocity),即在数据量非常庞大的情况下,也能做到数据的快速处理甚至是实时处理。有的地方会说道4V模型,但是对第四个V的定义各界的说法不一,有的认为是价值(value),有的则认为是真实性(veracity),其实在面对实际问题时,我们不需要执泥与具体定义,只需要在把握好3V特性的基础上,考虑到4V即可,大数据已经不仅仅是数据量大的事实了,最重要的是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。大数据的属性呈现出了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域显得尤为重要。   数据结构的不同   大数据和传统数据分析的不同   数据规模不同   大数据和传统数据库最明显的不同在于数据规模上的不同,大数据的数据量至少是TB级别以上,而传统的数据仓库因为存储的是结构化的关系数据,数据量上往往比较小,易于单机存储和处理。   数据类型的不同   由于微博等UGC信息发布形式的发展,产生了大量诸如文字、文档、图片、视频、音乐等等,大数据的数据类型等结构化数据、半结构化数据和非结构化数据,种类繁多,形式多样。这些数据的字段长度可变,并且每个字段的记录又可以由可重复或不可重复的字段构成的,要求数据库的存储和分析能够根据需要具有可伸缩性。大数据分析无法像传统数据分析那样,在分析之前先进行数据的提取、转换和加载等过程,这意味着大数据往往是混乱的,不完整的数据,需要我们去发现数据中的关联关系,而不是去事先定义好数据关系模型。   数据的收集方式不同   大数据的生成方式有些是通过非传统手段实现的,比如无线射频识别,传感器网络、视频监控、用户行为数字化等。并且数据是对时间敏感的,且由数据的收集与相关的时区有关。   数据存储方式的不同   数据类型的不同和数据量的不同,也导致了数据存储方式的不同,传统的数据都是存放在关系型数据库的二维表上的。并且一般都是单机存储,而大数据是需要存放在拥有数千万台机器的大规模并行系统上的。   分析方法的不同   传统的数据分析是数据的检验,是先假设,再去验证,是需要先采样来建立模型,最后去验证集验证,但是采样忽略了细节考察,而大数据由于由于有非结构化的数据,这些数据在用关系型数据库进行分析时,会话费过多的时间和金钱,大数据分析具有数据量大、查询分析复杂等特点,是面向全部数据,在大数据中,样本=全体。所以大数据分析常和云计算联系到一起,因为实时的大数据分析需要像MapReduc

文档评论(0)

小马过河 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档