柠檬学院:Hadoop及Mapreduce入门
Hadoop及Mapreduce入门柠檬学院大数据培训在线教育OutlinesHadoop OverviewHDFSMap-reduce Programming ParadigmHadoop Map-reduceJob SchedulerResourcesHadoop, Why?数据太多了,需要能存储、快速分析Pb级数据集的平台单机的存储、IO、CPU有限,需要可扩展的集群单点故障问题 –单点故障是正常现象,但需要处理这种异常 –节点有增有减需要好用的、可靠的基础平台来解决,最好是开源的Hadoop HistoryDec 2004 – Google GFS paper publishedJuly 2005 – Nutch uses MapReduceFeb 2006 – Becomes Lucene subprojectApr 2007 – Yahoo! on 1000-node clusterApr 2008 – Fastest QuickSort on 1TBJan 2008 – An Apache Top Level ProjectJul 2008 – A 4000 node test clusterHadoop-related projectsNutch:网页搜索软件,不只是爬虫Avro:数据序列化系统Chukwa:用于管理大规模分布式集群的数据收集系统ZooKeeper
您可能关注的文档
最近下载
- 2025届四川省成都七中学育才学校数学七下期末联考试题含解析.doc VIP
- 中科曙光入职线上测评题库.pdf
- 2024年临汾曲沃县乡镇消防协管员招聘考试真题.docx VIP
- 2025年海南省中考地理试卷试题真题及答案详解(精校打印版).pdf VIP
- 2023 施耐德 中压选型手册完整版.pdf VIP
- 2025重庆市中考生物真题(原卷版).docx VIP
- 2026年上海市奉贤区中考一模跨学科案例分析 荔枝 试卷含详解.docx VIP
- 《成人腰大池引流护理》(TCRHA 069-2024).pdf VIP
- 壳聚糖凝胶产品技术要求.docx VIP
- 安徽省合肥市合肥一中2026届高三年级最后一卷物理试卷含答案.pdf VIP
原创力文档

文档评论(0)