第14讲Mahout数据挖掘工具MahoutMahout的中文含义.PPT

第14讲Mahout数据挖掘工具MahoutMahout的中文含义.PPT

第14讲Mahout数据挖掘工具MahoutMahout的中文含义

将测试数据拷贝到HDFS 做一个kmeans聚类测试 K-means(K-均值)算法是最流行的聚类算法。首先随机地选取k个初始聚类中心,并把每个对象分配给离它最近的中心,从而得到一个初始聚类。然后,计算出当前每个聚类的重心作为新的聚类中心,并把每个对象重新分配到最近的中心。循环执行这一过程直至聚类质量不再提高为止。 做一个kmeans聚类测试 输出结果 观察输出 用mahout输出 20Newsgroups数据集 使用Mahout进行文本自动分类 ?贝叶斯分类器 ?学习集 ?测试集 ?新闻数据集的内容 贝叶斯分类算法是统计学的一种分类方法,它是一类利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯(Na?ve Bayes,NB)分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中,而且方法简单、分类准确率高、速度快。 文件内容 上传并解压数据 建立训练集 mahout org.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups \ -p /home/huang/data/20news-bydate-train \ -o /home/huang/data/bayes-test-input \ -a org.apache.mahout.vectorizer

文档评论(0)

1亿VIP精品文档

相关文档