大数据挖掘工具培训课件.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据 BIG DATA 第一页,共三十七页。 第四章 大数据挖掘工具 4.1 Mahout 4.2 Spark MLlib 4.3 其他数据挖掘工具 习题 of 44 * 第二页,共三十七页。 4.1 Mahout 《大数据》配套PPT课件 Mahout 简介 定义:Apache Mahout 是一个由Java语言实现的开源的可扩展的机器学习算法库 2008年之前 2010年以后 Apache Lucene开源搜索引擎的子项目 实现Lucene框架中的聚类以及分类算法 吸纳协调过滤项目Taste成为独立子项目 发展历史 成为Apache顶级项目 实现聚类、分类和协同过滤等机器学习算法 既可以单机运行也可在Hadoop平台上运行 目标:机器学习平台,提供类似R的DSL以支持线性代数运算(如分布式向量计算)、大数据统计等基本功能 驱象人 of 44 * 第三页,共三十七页。 4.1 Mahout 《大数据》配套PPT课件 Mahout在各平台支持的机器学习算法 算法 单机 MapReduce Spark H2O 聚类算法 — — — — Canopy deprecated deprecated — — k-means x x — — 模糊k-means x x — — 流k-means x x — — 谱聚类 — x — — 分类算法 — — — — 逻辑回归 x — — — 朴素贝叶斯 — x x — 随机森林 — x — — 隐马尔可夫模型 x — — — 多层感知器 x — — — 协同过滤算法 — — — — 基于用户的协同过滤 x — x — 基于物品的协同过滤 x x x — 基于ALS的矩阵分解 x x — — 基于ALS的矩阵分解(隐式反馈) x x — — 加权矩阵分解 x — — — 降维算法 — — — — 奇异值分解 x x x x Lanczos deprecated deprecated — — 随机SVD x x x x PCA x x x x QR分解 x x x x of 44 * 第四页,共三十七页。 4.1 Mahout 《大数据》配套PPT课件 1.下载Mahout安装包 2. 解压并安装Mahout 3. 启动并验证Mahout 安装环境:Linux操作系统(CentOS 6.5 )、 Hadoop平台(Hadoop 2.5.1) 镜像网站 of 44 * 4.1.1 Mahout 安装 第五页,共三十七页。 4.1 Mahout 《大数据》配套PPT课件 K-means聚类算法 基于Mahout命令运行k-means算法 基于MahoutAPI运行k-means算法 基于多维输入数据运行k-means算法 同一个簇中对象具有高相似度 无监督学习算法 Canopy、k-means、模糊k-means、流k-means和谱聚类等都是聚类算法 本节重点 of 44 * 4.1.2 聚类算法 第六页,共三十七页。 4.1 Mahout 《大数据》配套PPT课件 基于Mahout命令运行k-means算法 12个二维数据 1 10 1 11 2 10 2 11 10 1 10 2 … 运行聚类算法 (1.5,10.5) (10.5, 1.5 ) (10.5,10.5 ) 聚类中心坐标 以上述3个坐标为中心,半径为(0.5,0.5),生成3个聚类,每个聚类4个成员 3次迭代 of 44 * 第七页,共三十七页。 4.1 Mahout 《大数据》配套PPT课件 基于Mahout API运行k-means算法 给出初始聚类中心 1 10 10 1 10 10 调用Mahout API运行k-means聚类算法,指定Hadoop配置信息、输入数据、初始聚类中心,迭代2次得到聚类结果 of 44 * 第八页,共三十七页。 4.1 Mahout 《大数据》配套PPT课件 基于多维输入数据运行k-means算法 60维数据样本 600条60维趋势数据(600行60列) 表达了正常、循环、渐增、渐减、向上偏移和向下偏移6类趋势 每类100条 每类取一条做初始聚类中心 运行KmeansDemo类 将计算出的聚类中心数据导入到Excel文件 6个聚类中心所代表的趋势曲线 of 44 * 第九页,共三十七页。 4.1 Mahout 《大数据》配套PPT课件 考察已被分类的样本数据,学习训练分类规则 有监督学习算法 进行输入数据的类别判定 分类预测 垃圾邮件检测 of 44 * 4.1.3 分类算法 第十页,共三十七页。 4.1 Mahout 《大数据》配套PPT课件 逻辑回归算法 Mahout下基于随机梯度下降(SGD)实现的逻辑回归(Log

文档评论(0)

虾虾教育 + 关注
官方认证
文档贡献者

有问题请私信!谢谢啦 资料均为网络收集与整理,收费仅为整理费用,如有侵权,请私信,立马删除

版权声明书
用户编号:8012026075000021
认证主体重庆皮皮猪科技有限公司
IP属地重庆
统一社会信用代码/组织机构代码
91500113MA61PRPQ02

1亿VIP精品文档

相关文档