Hadoop数据挖掘工具Mahout.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop数据挖掘工具Mahout

* * * * Mahout算法集 算法类 算法名 中文名 分类算法 Logistic Regression 逻辑回归 ? Bayesian 贝叶斯 ? SVM 支持向量机 ? Perceptron 感知器算法 ? Neural Network 神经网络 ? Random Forests 随机森林 ? Restricted Boltzmann Machines 有限波尔兹曼机 聚类算法 Canopy Clustering Canopy聚类 ? K-means Clustering K均值算法 ? Fuzzy K-means 模糊K均值 ? Expectation Maximization EM聚类(期望最大化聚类) ? Mean Shift Clustering 均值漂移聚类 ? Hierarchical Clustering 层次聚类 ? Dirichlet Process Clustering 狄里克雷过程聚类 ? Latent Dirichlet Allocation LDA聚类 ? Spectral Clustering 谱聚类 关联规则挖掘 Parallel FP Growth Algorithm 并行FP Growth算法 回归 Locally Weighted Linear Regression 局部加权线性回归 降维/维约简 Singular Value Decomposition 奇异值分解 ? Principal Components Analysis 主成分分析 ? Independent Component Analysis 独立成分分析 ? Gaussian Discriminative Analysis 高斯判别分析 进化算法 并行化了Watchmaker框架 ? 推荐/协同过滤 Non-distributed recommenders Taste(UserCF, ItemCF, SlopeOne) ? Distributed Recommenders ItemCF 向量相似度计算 RowSimilarityJob 计算列间相似度 ? VectorDistanceJob 计算向量间距离 非Map-Reduce算法 Hidden Markov Models 隐马尔科夫模型 集合方法扩展 Collections 扩展了java的Collections类 Apache Mahout优点 Mahout安装 Mahout测试 课程目标 Apache Mahout优点 技术社区活跃 良好的扩展性和容错性 文档化好,实例丰富 100%源代码开源 易于使用 Mahout安装 下载: /apache/mahout/0.9/ 上传并解压 Mahout安装 环境变量配置,修改.bashrc,添加如下内容: 使配置生效 $ source .bashrc 几个重要的环境变量 JAVA_HOME MAHOUT_JAVA_HOME HADOOP_CONF_DIR MAHOUT_LOCAL MAHOUT_CONF_DIR MAHOUT_HEAPSIZE Mahout安装 验证安装 Mahout测试 下载测试数据 $ wget /ml/databases/synthetic_control/synthetic_control.data 启动hadoop集群 $ start-dfs.sh $ start-mapred.sh 上传测试数据到HDFS $ hadoop fs -mkdir testdata $ hadoop fs -put synthetic_control.data testdata Mahout测试 运行k-means算法 $ mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job 启动12个MapReduce Job任务 Thanks * * * * * * * * * * * * * * * * * * * * * * * Hadoop数据挖掘工具Mahout Mahout简介 数据挖掘基础 课程目标 Mahout 数据金字塔 数据统计分析 数据挖掘 数据挖掘是从大量数据中提取或“挖掘”知识 数据挖掘思想来源:假设检验,模式识别,人工智能,机器学习 数据挖掘涉及多学科技术的集成,包括数据库技术、统计、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息提取、图象与信号处理和空间数据分析 数据挖掘系统的组成 数据库、数据仓库、或其它信息库 数据库或数据仓库服务器 知识库 数据挖掘引擎 模式评估模块 图形用户界面 数据挖掘常用方法 数据挖掘任务可以分两类: 描述和预测 特征分析 从数据库中的一组数据中提取出关于这些数据的特

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档