Hadoop大数据解决方案进阶应用 Mahout数据挖掘工具 (2) 数据挖掘常用方法 数据分析工具 Mahout支持的算法 课程目标 回归分析 回归分析方法反映的是事务数据库中属性值在时间上的特征 步骤:确定变量-建立预测模型-进行相关分析-计算预测误差-确定预测值 分类器 找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类 分类预测的方法训练:训练集——特征选取——训练——分类器分类:新样本——特征选取——分类——判定 常用算法:决策树、KNN法、SVM法、VSM法、Bayes法、神经网络 聚类 把一组数据按照相似性和差异性分为几个类别 常见算法:K-means聚类,K-medoid聚类、GMM、层次聚类等 聚类 GMM 将k个高斯模型混合在一起,每个点出现的概率是几个高斯混合的结果 层次聚类 假设有N个待聚类的样本,对于层次聚类来说,基本步骤就是: 1、(初始化)把每个样本归为一类,计算每两个类之间的距离,也就是样本与样本之间的相似度 2、寻找各个类之间最近的两个类,把他们归为一类(这样类的总数就少了一个) 3、重新计算新生成的这个类与各个旧类之间的相似度 4、重复2和3直到所有样本点都归为一类,结束 整个聚类过程其实是建立了一棵树,在建立的过程中,可以通过在第二步上设置一个阈值,当最近的两个类的距离大于这个阈值,则认为迭代可以终止。 常用数据挖掘算
您可能关注的文档
最近下载
- 2023江苏省高等数学竞赛本科二级试题.docx VIP
- 树立和践行正确政绩观PPT.pptx VIP
- 科箭-Power-TMS-运输管理云-操作手册-说明书.pdf VIP
- 2-某公司职级体系建设实施方案.pptx VIP
- 中国股骨颈骨折诊疗指南(2025版).docx VIP
- 2025年党员领导干部一对一谈心谈话记录党员一对一廉洁谈心谈话记录(含廉洁谈心谈话)(党支部书记、党支部委员).docx VIP
- 脊柱转移瘤治疗进展.pdf
- 中国心力衰竭诊断与治疗指南(2024)PPT课件.pptx VIP
- 刘德武《认识千以内的数》.pptx VIP
- 一年级(下)数学同步练习册《人教》.docx VIP
原创力文档

文档评论(0)