Hadoop项目实战教程Mahout数据挖掘工具3.ppt

Hadoop大数据解决方案进阶应用 Mahout数据挖掘工具 (3) 数据分析工具 常见算法的Map-Reduce化 Mahout的起源和特点 课程目标 频繁模式挖掘 数据分析工具 常用传统数据分析工具排行 传统数据分析工具的困境 R,SAS,SPSS等典型应用场景为实验室工具 处理数据量受限于内存,因此无法处理海量数据 使用Oracle数据库等处理海量数据,但缺乏有效快速专业的分析功能 可以采用抽样等方法,但有局限性,比如对于聚类,推荐系统则无法使用抽样 解决方向:Hadoop集群和Map-Reduce并行计算 常见算法的Map-Reduce化 常见算法的Map-Reduce化 Mahout起源 Apache Mahout起源于2008年,当时是Apache Lucene的子项目 使用Hadoop库,可以将其功能有效地扩展到Apache Hadoop云平台 Apache Lucene是一个著名的开源搜索引擎,实现了先进的信息搜索、文本挖掘功能 一些Apache Lucene的开发者最终转而开发机器学习算法,这些算法也就形成了最初的Apache Mahout Mahout不久又吸收了名为Taste的开源协同过滤算法的项目 2010年4月Apache Mahout最终成为Apache的顶级项目 Mahout特点 Mahout的主要母的是实现针对大规模数据集的可伸缩的机器学习算法

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档