Hadoop大数据解决方案进阶应用 Mahout数据挖掘工具 (3) 数据分析工具 常见算法的Map-Reduce化 Mahout的起源和特点 课程目标 频繁模式挖掘 数据分析工具 常用传统数据分析工具排行 传统数据分析工具的困境 R,SAS,SPSS等典型应用场景为实验室工具 处理数据量受限于内存,因此无法处理海量数据 使用Oracle数据库等处理海量数据,但缺乏有效快速专业的分析功能 可以采用抽样等方法,但有局限性,比如对于聚类,推荐系统则无法使用抽样 解决方向:Hadoop集群和Map-Reduce并行计算 常见算法的Map-Reduce化 常见算法的Map-Reduce化 Mahout起源 Apache Mahout起源于2008年,当时是Apache Lucene的子项目 使用Hadoop库,可以将其功能有效地扩展到Apache Hadoop云平台 Apache Lucene是一个著名的开源搜索引擎,实现了先进的信息搜索、文本挖掘功能 一些Apache Lucene的开发者最终转而开发机器学习算法,这些算法也就形成了最初的Apache Mahout Mahout不久又吸收了名为Taste的开源协同过滤算法的项目 2010年4月Apache Mahout最终成为Apache的顶级项目 Mahout特点 Mahout的主要母的是实现针对大规模数据集的可伸缩的机器学习算法
您可能关注的文档
- 挖掘机液压原理基本知识.ppt
- 建筑施工噪声监测与评价.pptx
- 飞瑞斯手机视频监控系统1.ppt
- 时空大数据--预测 挖掘和可视化幻灯片.pptx
- 第11讲 《煤矿安全规程》关于监控与通信规定.ppt
- 传输网管移动监控云服务.pptx
- MATLAB基础编程入门.ppt
- CX55B 操作与保养演示文稿.ppt
- 建设项目经济评价软件V5.0使用指南培训版.ppt
- 经销商盈利能力提升项目标杆案例 SPC-05-提升新车单台精品额.pptx
- 合规红线与避坑实操手册(2026)《GB 24155-2020电动摩托车和电动轻便摩托车安全要求》.pptx
- 合规红线与避坑实操手册(2026)《GB 29995-2024煤基活性炭和兰炭单位产品能源消耗限额》.pptx
- 合规红线与避坑实操手册(2026)《GB 38189-2019与通信网络电气连接的电子设备的安全》.pptx
- 合规红线与避坑实操手册(2026)《GBT 41244-2022可冲散水刺非织造材料及制品》.pptx
- 合规红线与避坑实操手册(2026)《GB 9706.201-2020医用电气设备 第2-1部分:能量为1MeV至50MeV电子加速器基本安全和基本性能专用要求》.pptx
- 《十五五绿氢项目与地方性反脆弱智慧研究投资》的深度内容。以下是包含十个一级、各自下属的二级及其详细解读的完整文章。.pptx
- 《2026—2028年中国钢轨配件行业生态全景与战略纵深研究报告:政策、技术、资本与消费四重驱动下的产业重构与机遇地图》.pptx
- 《2026—2028年中国钢丝网石棉水泥中波瓦行业生态全景与战略纵深研究报告:政策、技术、资本与消费四重驱动下的产业重构与机遇地图》.pptx
- 《2026—2028年中国钢铁链零件行业生态全景与战略纵深研究报告:政策、技术、资本与消费四重驱动下的产业重构与机遇地图》.pptx
- 《2026—2028年中国钢质机动货船行业生态全景与战略纵深研究报告:政策、技术、资本与消费四重驱动下的产业重构与机遇地图》.pptx
原创力文档

文档评论(0)