- 1、本文档共27页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据分析浅谈
Big data Analysis
M 叶斌
vision
大数据(big data ),是指无法在可承受的时间范围内用常规软
件工具进行捕捉、管理和处理的数据集合。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的 《大数据时代》
[1]中大数据指不用随机分析法(抽样调查)这样的捷径,而采用
所有数据进行分析处理。
大数据的4V特点:
Volume (大量)、Velocity (高速)、Variety (多样)、Value
[2]
(价值) 。
[1]
《大数据时代》(Big Data:A Revolution That Will Transform How We Live, Work, and Think )
维克托·迈尔-舍恩伯格 Viktor Mayer-Scönberger
肯尼斯·库克耶 Kenneth Cukier
[2] 容量(Volume ):数据的大小决定所考虑的数据的价值的和潜在的信息;
种类(Variety ):数据类型的多样性;
速度(Velocity ):指获得数据的速度;
可变性(Variability ):妨碍了处理和有效地管理数据的过程。
真实性(Veracity ):数据的质量
复杂性(Complexity ):数据量巨大,来源多渠道 M
vision
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。
技术上,大数据与云计算的关系就像一枚硬币的正反面
一样密不可分。大数据必然无法用单台的计算机进行处理,
必须采用分布式架构。它的特色在于对海量数据进行分布
式数据挖掘,但它必须依托云计算的分布式处理、分布式 SaaS 分布式数据挖掘 Mahout
数据库和云存储、虚拟化技术。
随着云时代的来临,大数据(Big data )也吸引了越来 分布式处理 MapReduce
越多的关注。大数据(Big data )通常用来形容一个公司创 PaaS JobKeeper
造的大量非结构化数据和半结构化数据 ,这些数据在下载 分布式数据库 HBase
到关系型数据库用于分析时会花费过多时间和金钱。大数 数据立方
据分析常和云计算联系到一起,因为实时的大型数据集分
析需要像MapReduce一样的框架来向数十、数百或甚至数 IaaS 云存储 虚拟化
千的电脑分配工作。
大数据需要特殊的技术,以有效地处理大量的容忍经过 HDFS VMware
时间内的数据。适用于大数据的技术,包括大规模并行处 Cstor Open Stack
理(MPP )数据库、数据挖掘、分布式文件系统、分布式
数据库、云计算平台、互联网和可扩展的存储系统。
M
文档评论(0)