Hadoop基本原理与入门实践 讲述内容 什么是大数据 hadoop的起源 Hadoop 开始时时nutch的一个子项目,而nutch又是Apache Lucene的子项目。这三个项目都是由Doung Cutting创立,每个项目都是上一个项目的演进。 Lucene是搜索引擎开发工具包,提供了一个纯Java的高性能全文检索,他可以方便嵌入实际应用中实现全文搜索、索引功能。 Nutch项目始于2002年,是以Lucene为基础的实现的搜索引擎应用。Lucene为nutch提供了文本搜索和索引API,Nutch不光有搜索功能,还有数据抓取功能。 很快,Doug Cutting和Mike(Hadoop和Nutch的另一位创始人)就意识到,他们的架构无法扩展支持数以十亿的网页。这时候,Google的研究人员在2003 ACM会议上发表描述了谷歌的分布式文件系统,即GFS的论文,即时为他们提供了帮助,解决了网络抓取和索引过程中产生大量文件存储的需求,于是,他们开始写GFS的一个开源实现,即Nutch的分布式文件系统,NDFS。 2004年 2004年,google发表论文介绍了他们的MapReduce系统。 2005年,Nutch开发人员在Nutch上实现了第一个MapReduce系统,并在年中实现了算法完全移植。这样,Nutch的NDFS和MapReduce实现不只是适用于搜索领域。
原创力文档

文档评论(0)