Hadoop项目实战教程Mahout数据挖掘工具2.ppt

Hadoop大数据解决方案进阶应用 Mahout数据挖掘工具 (2) 数据挖掘常用方法 数据分析工具 Mahout支持的算法 课程目标 回归分析 回归分析方法反映的是事务数据库中属性值在时间上的特征 步骤:确定变量-建立预测模型-进行相关分析-计算预测误差-确定预测值 分类器 找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类 分类预测的方法 训练:训练集——特征选取——训练——分类器 分类:新样本——特征选取——分类——判定 常用算法:决策树、KNN法、SVM法、VSM法、Bayes法、神经网络 聚类 把一组数据按照相似性和差异性分为几个类别 常见算法:K-means聚类,K-medoid聚类、GMM、层次聚类等 聚类 GMM 将k个高斯模型混合在一起,每个点出现的概率是几个高斯混合的结果 层次聚类 假设有N个待聚类的样本,对于层次聚类来说,基本步骤就是: 1、(初始化)把每个样本归为一类,计算每两个类之间的距离,也就是样本与样本之间的相似度 2、寻找各个类之间最近的两个类,把他们归为一类(这样类的总数就少了一个) 3、重新计算新生成的这个类与各个旧类之间的相似度 4、重复2和3直到所有样本点都归为一类,结束 整个聚类过程其实是建立了一棵树,在建立的过程中,可以通过在第二步上设置一个阈值,当最近的两个类的距离大于这个阈值,则认为迭代可以终止。 常用数据挖掘算

文档评论(0)

1亿VIP精品文档

相关文档