Hadoop编程实践概论.ppt

Hadoop编程实践概论

;本课程适合的人;课程大纲;*;;*;;一个分布式文件系统和并行执行环境(框架) 让用户便捷地处理海量数据 Apache软件基金会下面的一个开源项目 目前Yahoo!是最主要的贡献者 ;Apache Lucene 开源的高性能全文检索工具包 Apache Nutch 开源的 Web 搜索引擎 Google 三大论文 MapReduce / GFS / BigTable Apache Hadoop 大规模数据处理;2004年-- 最初的版本(现在称为HDFS和MapReduce)由Doug Cutting和Mike Cafarella开始实施。 2005年12月-- Nutch移植到新的框架,Hadoop在20个节点上稳定运行。 2006年1月-- Doug Cutting加入雅虎。 2006年2月-- Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。 2006年2月-- 雅虎的网格计算团队采用Hadoop。 2006年4月-- 标准排序(10 GB每个节点)在188个节点上运行47.9个小时。 2006年5月-- 雅虎建立了一个300个节点的Hadoop研究集群。 2006年5月-- 标准排序在500个节点上运行42个小时(硬件配置比4月的更好)。 06年11月-- 研究集群增加到600个节点。;扩容能力(Scalable):能可靠地(relia

文档评论(0)

1亿VIP精品文档

相关文档