柠檬学院:Hadoop及Mapreduce入门.pptx

柠檬学院:Hadoop及Mapreduce入门

Hadoop及Mapreduce入门柠檬学院大数据培训在线教育OutlinesHadoop OverviewHDFSMap-reduce Programming ParadigmHadoop Map-reduceJob SchedulerResourcesHadoop, Why?数据太多了,需要能存储、快速分析Pb级数据集的平台单机的存储、IO、CPU有限,需要可扩展的集群单点故障问题 –单点故障是正常现象,但需要处理这种异常 –节点有增有减需要好用的、可靠的基础平台来解决,最好是开源的Hadoop HistoryDec 2004 – Google GFS paper publishedJuly 2005 – Nutch uses MapReduceFeb 2006 – Becomes Lucene subprojectApr 2007 – Yahoo! on 1000-node clusterApr 2008 – Fastest QuickSort on 1TBJan 2008 – An Apache Top Level ProjectJul 2008 – A 4000 node test clusterHadoop-related projectsNutch:网页搜索软件,不只是爬虫Avro:数据序列化系统Chukwa:用于管理大规模分布式集群的数据收集系统ZooKeeper

文档评论(0)

1亿VIP精品文档

相关文档