Hadoop编程实践概论
;本课程适合的人;课程大纲;*;;*;;一个分布式文件系统和并行执行环境(框架)
让用户便捷地处理海量数据
Apache软件基金会下面的一个开源项目
目前Yahoo!是最主要的贡献者
;Apache Lucene
开源的高性能全文检索工具包
Apache Nutch
开源的 Web 搜索引擎
Google 三大论文
MapReduce / GFS / BigTable
Apache Hadoop
大规模数据处理;2004年-- 最初的版本(现在称为HDFS和MapReduce)由Doug Cutting和Mike Cafarella开始实施。
2005年12月-- Nutch移植到新的框架,Hadoop在20个节点上稳定运行。
2006年1月-- Doug Cutting加入雅虎。
2006年2月-- Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。
2006年2月-- 雅虎的网格计算团队采用Hadoop。
2006年4月-- 标准排序(10 GB每个节点)在188个节点上运行47.9个小时。
2006年5月-- 雅虎建立了一个300个节点的Hadoop研究集群。
2006年5月-- 标准排序在500个节点上运行42个小时(硬件配置比4月的更好)。
06年11月-- 研究集群增加到600个节点。;扩容能力(Scalable):能可靠地(relia
原创力文档

文档评论(0)