第14讲Mahout数据挖掘工具MahoutMahout的中文含义
将测试数据拷贝到HDFS 做一个kmeans聚类测试 K-means(K-均值)算法是最流行的聚类算法。首先随机地选取k个初始聚类中心,并把每个对象分配给离它最近的中心,从而得到一个初始聚类。然后,计算出当前每个聚类的重心作为新的聚类中心,并把每个对象重新分配到最近的中心。循环执行这一过程直至聚类质量不再提高为止。 做一个kmeans聚类测试 输出结果 观察输出 用mahout输出 20Newsgroups数据集 使用Mahout进行文本自动分类 ?贝叶斯分类器 ?学习集 ?测试集 ?新闻数据集的内容 贝叶斯分类算法是统计学的一种分类方法,它是一类利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯(Na?ve Bayes,NB)分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中,而且方法简单、分类准确率高、速度快。 文件内容 上传并解压数据 建立训练集 mahout org.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups \ -p /home/huang/data/20news-bydate-train \ -o /home/huang/data/bayes-test-input \ -a org.apache.mahout.vectorizer
您可能关注的文档
最近下载
- DB15T3801-2024 内蒙古公共建筑节能设计标准.pdf VIP
- 《首饰 指环尺寸 定义、测量和命名》标准修订发展报告.docx VIP
- 新解读《GB_T 11888 - 2021首饰 指环尺寸 定义、测量和命名》最新解读.pptx VIP
- 仪器设备期间核查方法.pptx VIP
- GB46768-2025《有限空间作业安全技术规范》解读_-60页.pptx
- 仪器设备期间核查课件.ppt VIP
- (正式版)DB37∕T 2950-2017 《首饰手镯尺寸定义、测量和命名》.docx VIP
- 首饰 指环尺寸 定义、测量和命名标准立项修订与发展报告.docx VIP
- 仪器设备维护与保养培训.pptx VIP
- 《建筑设计防火规范》GB50016-2014.pptx VIP
原创力文档

文档评论(0)