一起认识Hadoop Cai 目录 引言 Hadoop由来 Hadoop发展 Hadoop生态圈 引言 云计算的关键在于分布式计算和虚拟化。在虚拟化和云计算共同构成的架构里,虚拟化有效分离了硬件与软件,使人们将精力集中于软件提供的服务上,因此,虚拟化为云计算提供了坚定的基础。分布式计算则是云计算创造出的一种全新的计算模式,用作大规模数据处理,它是云计算的核心,也是云计算的发展趋势。 大数据(big data)(巨量资料), 是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。 Volume大量:像百度,淘宝,腾讯,Facebook,Twitter等网站上的一些信息,这肯定算是大数据了,都要存储下来。 Variety多样:数据的多样性,是说数据可能是结构型的数据,也可能是非结构行的文本,图片,视频,语音,日志,邮件等。 Velocity实时:大数据需要快速的,实时的进行处理。如果说对时间要求低, 那弄几个机器,对小数据进行处理,等个十天半月的出来结果, 这样也没有什么意义了。 Veracity不确定: 数据是存在真伪的,各种各样的数据, 有的有用,有的没用。很难辨析。 引言 引言 Volume——数据体量巨大。从TB级别,增长到PB级别。截至目前,人类生产的所有印刷材料的数据量是200PB(1PB=1024TB),而历史上全人类说过的所有的话的数据量大约是5E
您可能关注的文档
最近下载
- 考虑多工况的汽车前轴结构优化设计【论文】13000字 .pdf
- 2024年小红书酒店集团通案(小游记·探寻新解法).pdf
- 2025广州从化区中小学教师招聘考试试题及答案.docx VIP
- 小红书酒店集团通案(小游记·探寻新解法) 2024年.pptx
- 一种基于卷积神经网络的水下爆炸载荷下板架结构动态响应的预测方法.pdf VIP
- 一种基于机器学习的水下爆炸载荷下船体板架结构动响应快速预报方法.pdf VIP
- 蜂窝式SCR脱硝催化剂生产工艺关键技术分析.pdf VIP
- 创维50&55&65BG22产品规格书.pdf VIP
- 2025年新版春考化工试卷答案及解析.doc VIP
- 地质踏勘方案.pptx VIP
原创力文档

文档评论(0)