第14讲：Mahout数据挖掘工具.pptVIP

下载本文档

46
0
约3.31千字
约 50页
2016-11-10 发布于江西
举报
版权申诉

第14讲：Mahout数据挖掘工具.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第14讲：Mahout数据挖掘工具.ppt

Mahout Mahout的中文含义：象夫数据金字塔数据分析使用统计方法，有目的地对收集到的数据进行分析处理，并且解读分析结果. 数据分析常用算法回归分类器聚类聚类分析的定义聚类分析是将物理的或者抽象的数据集合划分为多个类别的过程，聚类之后的每个类别中任意两个数据样本之间具有较高的相似度，而不同类别的数据样本之间具有较低的相似度。通常聚类算法可以分为以下几类：划分式聚类算法层次聚类算法基于密度的聚类算法基于网格的聚类算法基于模型的聚类算法聚类数据挖掘数据挖掘是以查找隐藏在数据中的信息为目标的技术，是应用算法从大型数据库中提取知识的过程，这些算法确定信息项之间的隐性关联，并且向用户显示这些关联数据挖掘思想来源：假设检验，模式识别，人工智能，机器学习常见数据挖掘任务：关联分析，聚类分析，孤立点分析等等例：啤酒与尿布的故事例：《Science》的文章《科学家摸索出大型数据集内的趋势》频繁模式挖掘数据分析工具常用传统数据分析工具排行传统数据分析工具的困境 R，SAS，SPSS等典型应用场景为实验室工具处理数据量受限于内存，因此无法处理海量数据使用Oracle数据库等处理海量数据，但缺乏有效快速专业的分析功能可以采用抽样等方法，但有局限性，比如对于聚类，推荐系统则无法使用抽样解决方向：Hadoop集群和Map-Reduce并行计算常见算法的Map-Reduce化常见算法的Map-Reduce化 Mahout起源 Mahout的特点 Mahout的主要目的是实现可伸缩的机器学习算法（就是算法的M-R化），但也不一定要求基于Hadoop平台，核心库中某些非分布式的算法也具有很好的性能目标是帮助开发人员快速建立具有机器智能的应用程序，目前比较成熟和活跃的主要包括 1 频繁模式挖掘 2 聚类算法 3 分类器 4 推荐系统 5 频繁子项挖掘发展中的Mahout Mahout目前支持和研究中的算法列表 /confluence/display/MAHOUT/Algorithms 下载和解压Mahout 配置环境变量配置环境变量几个重要环境变量 JAVA_HOME mahout运行需指定jdk的目录 MAHOUT_JAVA_HOME指定此变量可覆盖JAVA_HOME值 HADOOP_HOME 如果配置，则在hadoop分布式平台上运行，否则单机运行 HADOOP_CONF_DIR指定hadoop的配置文件目录 MAHOUT_LOCAL 如果此变量值不为空，则单机运行mahout。 MAHOUT_CONF_DIR mahout配置文件的路径，默认值是$MAHOUT_HOME/src/conf MAHOUT_HEAPSIZE mahout运行时可用的最大heap大小验证安装成功源码和部分样本数据需要下载源代码包（可以尝试下编译源代码方式的安装）下载测试数据将测试数据拷贝到HDFS 做一个kmeans聚类测试 K-means（K-均值）算法是最流行的聚类算法。首先随机地选取k个初始聚类中心，并把每个对象分配给离它最近的中心，从而得到一个初始聚类。然后，计算出当前每个聚类的重心作为新的聚类中心，并把每个对象重新分配到最近的中心。循环执行这一过程直至聚类质量不再提高为止。做一个kmeans聚类测试输出结果观察输出用mahout输出 20Newsgroups数据集使用Mahout进行文本自动分类 ?贝叶斯分类器 ?学习集 ?测试集 ?新闻数据集的内容贝叶斯分类算法是统计学的一种分类方法，它是一类利用概率统计知识进行分类的算法。在许多场合，朴素贝叶斯(Na?ve Bayes，NB)分类算法可以与决策树和神经网络分类算法相媲美，该算法能运用到大型数据库中，而且方法简单、分类准确率高、速度快。文件内容上传并解压数据建立训练集 mahout org.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups \ -p /home/huang/data/20news-bydate-train \ -o /home/huang/data/bayes-test-input \ -a org.apache.mahout.vectorizer.DefaultAnalyzer \ -c UTF-8 建立训练集建立测试集建立测试集上传数据到HDFS 训练贝叶斯分类器 mahout trainclassifier \ -