- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据 BIG DATA 第一页,共三十七页。 第四章 大数据挖掘工具 4.1 Mahout 4.2 Spark MLlib 4.3 其他数据挖掘工具 习题 of 44 * 第二页,共三十七页。 4.1 Mahout 《大数据》配套PPT课件 Mahout 简介 定义:Apache Mahout 是一个由Java语言实现的开源的可扩展的机器学习算法库 2008年之前 2010年以后 Apache Lucene开源搜索引擎的子项目 实现Lucene框架中的聚类以及分类算法 吸纳协调过滤项目Taste成为独立子项目 发展历史 成为Apache顶级项目 实现聚类、分类和协同过滤等机器学习算法 既可以单机运行也可在Hadoop平台上运行 目标:机器学习平台,提供类似R的DSL以支持线性代数运算(如分布式向量计算)、大数据统计等基本功能 驱象人 of 44 * 第三页,共三十七页。 4.1 Mahout 《大数据》配套PPT课件 Mahout在各平台支持的机器学习算法 算法 单机 MapReduce Spark H2O 聚类算法 — — — — Canopy deprecated deprecated — — k-means x x — — 模糊k-means x x — — 流k-means x x — — 谱聚类 — x — — 分类算法 — — — — 逻辑回归 x — — — 朴素贝叶斯 — x x — 随机森林 — x — — 隐马尔可夫模型 x — — — 多层感知器 x — — — 协同过滤算法 — — — — 基于用户的协同过滤 x — x — 基于物品的协同过滤 x x x — 基于ALS的矩阵分解 x x — — 基于ALS的矩阵分解(隐式反馈) x x — — 加权矩阵分解 x — — — 降维算法 — — — — 奇异值分解 x x x x Lanczos deprecated deprecated — — 随机SVD x x x x PCA x x x x QR分解 x x x x of 44 * 第四页,共三十七页。 4.1 Mahout 《大数据》配套PPT课件 1.下载Mahout安装包 2. 解压并安装Mahout 3. 启动并验证Mahout 安装环境:Linux操作系统(CentOS 6.5 )、 Hadoop平台(Hadoop 2.5.1) 镜像网站 of 44 * 4.1.1 Mahout 安装 第五页,共三十七页。 4.1 Mahout 《大数据》配套PPT课件 K-means聚类算法 基于Mahout命令运行k-means算法 基于MahoutAPI运行k-means算法 基于多维输入数据运行k-means算法 同一个簇中对象具有高相似度 无监督学习算法 Canopy、k-means、模糊k-means、流k-means和谱聚类等都是聚类算法 本节重点 of 44 * 4.1.2 聚类算法 第六页,共三十七页。 4.1 Mahout 《大数据》配套PPT课件 基于Mahout命令运行k-means算法 12个二维数据 1 10 1 11 2 10 2 11 10 1 10 2 … 运行聚类算法 (1.5,10.5) (10.5, 1.5 ) (10.5,10.5 ) 聚类中心坐标 以上述3个坐标为中心,半径为(0.5,0.5),生成3个聚类,每个聚类4个成员 3次迭代 of 44 * 第七页,共三十七页。 4.1 Mahout 《大数据》配套PPT课件 基于Mahout API运行k-means算法 给出初始聚类中心 1 10 10 1 10 10 调用Mahout API运行k-means聚类算法,指定Hadoop配置信息、输入数据、初始聚类中心,迭代2次得到聚类结果 of 44 * 第八页,共三十七页。 4.1 Mahout 《大数据》配套PPT课件 基于多维输入数据运行k-means算法 60维数据样本 600条60维趋势数据(600行60列) 表达了正常、循环、渐增、渐减、向上偏移和向下偏移6类趋势 每类100条 每类取一条做初始聚类中心 运行KmeansDemo类 将计算出的聚类中心数据导入到Excel文件 6个聚类中心所代表的趋势曲线 of 44 * 第九页,共三十七页。 4.1 Mahout 《大数据》配套PPT课件 考察已被分类的样本数据,学习训练分类规则 有监督学习算法 进行输入数据的类别判定 分类预测 垃圾邮件检测 of 44 * 4.1.3 分类算法 第十页,共三十七页。 4.1 Mahout 《大数据》配套PPT课件 逻辑回归算法 Mahout下基于随机梯度下降(SGD)实现的逻辑回归(Log
您可能关注的文档
最近下载
- D-Z-T 0017-2023 工程地质钻探规程(正式版).docx VIP
- D-Z-T 0382-2021 固体矿产勘查地质填图规范(正式版).docx VIP
- [病人入院护理评估表1.doc VIP
- 具有抗菌性能的中熵合金、制备方法及其应用.pdf VIP
- 探析互联网技术在小学英语教学中的应用.docx VIP
- 科技英语的特征.pptx VIP
- 湖南省2026届高三九校联盟第一次联考 化学试卷(含答案详解).pdf
- 银川乐口福食品有限公司产品研发动因及对策研究----以蛋糕为例 经管类毕业论文.docx VIP
- 2023年ISO37001反贿赂管理体系内部审核全套资料.docx VIP
- 中国文化产业和旅游业年度研究报告(2024)精华版.pdf
文档评论(0)