一起认识Hadoop(cai)解决方案.ppt

一起认识Hadoop Cai 目录 引言 Hadoop由来 Hadoop发展 Hadoop生态圈 引言 云计算的关键在于分布式计算和虚拟化。在虚拟化和云计算共同构成的架构里,虚拟化有效分离了硬件与软件,使人们将精力集中于软件提供的服务上,因此,虚拟化为云计算提供了坚定的基础。分布式计算则是云计算创造出的一种全新的计算模式,用作大规模数据处理,它是云计算的核心,也是云计算的发展趋势。 大数据(big data)(巨量资料), 是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。 Volume大量:像百度,淘宝,腾讯,Facebook,Twitter等网站上的一些信息,这肯定算是大数据了,都要存储下来。 Variety多样:数据的多样性,是说数据可能是结构型的数据,也可能是非结构行的文本,图片,视频,语音,日志,邮件等。 Velocity实时:大数据需要快速的,实时的进行处理。如果说对时间要求低, 那弄几个机器,对小数据进行处理,等个十天半月的出来结果, 这样也没有什么意义了。 Veracity不确定: 数据是存在真伪的,各种各样的数据, 有的有用,有的没用。很难辨析。 引言 引言 Volume——数据体量巨大。从TB级别,增长到PB级别。截至目前,人类生产的所有印刷材料的数据量是200PB(1PB=1024TB),而历史上全人类说过的所有的话的数据量大约是5E

文档评论(0)

1亿VIP精品文档

相关文档