第14讲:Mahout数据挖掘工具.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第14讲:Mahout数据挖掘工具.ppt

Mahout Mahout的中文含义:象夫 数据金字塔 数据分析 使用统计方法,有目的地对收集到的数据进行分析处理,并且解读分析结果. 数据分析 常用算法 回归 分类器 聚类 聚类分析的定义 聚类分析是将物理的或者抽象的数据集合划分为多个类别的过程,聚类之后的每个类别中任意两个数据样本之间具有较高的相似度,而不同类别的数据样本之间具有较低的相似度。 通常聚类算法可以分为以下几类: 划分式聚类算法 层次聚类算法 基于密度的聚类算法 基于网格的聚类算法 基于模型的聚类算法 聚类 数据挖掘 数据挖掘是以查找隐藏在数据中的信息为目标的技术,是应用算法从大型数据库中提取知识的过程,这些算法确定信息项之间的隐性关联,并且向用户显示这些关联 数据挖掘思想来源:假设检验,模式识别,人工智能,机器学习 常见数据挖掘任务:关联分析,聚类分析,孤立点分析等等 例:啤酒与尿布的故事 例:《Science》的文章《科学家摸索出大型数据集内的趋势》 频繁模式挖掘 数据分析工具 常用传统数据分析工具排行 传统数据分析工具的困境 R,SAS,SPSS等典型应用场景为 实验室工具 处理数据量受限于内存,因此无法处理海量数据 使用Oracle数据库等处理海量数据,但缺乏有效快速专业的分析功能 可以采用抽样等方法,但有局限性,比如对于聚类,推荐系统则无法使用抽样 解决方向:Hadoop集群和Map-Reduce并行计算 常见算法的Map-Reduce化 常见算法的Map-Reduce化 Mahout起源 Mahout的特点 Mahout的主要目的是实现可伸缩的机器学习算法(就是算法的M-R化),但也不一定要求基于Hadoop平台,核心库中某些非分布式的算法也具有很好的性能 目标是帮助开发人员快速建立具有机器智能的应用程序,目前比较成熟和活跃的主要包括 1 频繁模式挖掘 2 聚类算法 3 分类器 4 推荐系统 5 频繁子项挖掘 发展中的Mahout Mahout目前支持和研究中的算法列表 /confluence/display/MAHOUT/Algorithms 下载和解压Mahout 配置环境变量 配置环境变量 几个重要环境变量 JAVA_HOME mahout运行需指定jdk的目录 MAHOUT_JAVA_HOME指定此变量可覆盖JAVA_HOME值 HADOOP_HOME 如果配置,则在hadoop分布式平台上运行,否则单机运行 HADOOP_CONF_DIR指定hadoop的配置文件目录 MAHOUT_LOCAL 如果此变量值不为空,则单机运行mahout。 MAHOUT_CONF_DIR mahout配置文件的路径,默认值是$MAHOUT_HOME/src/conf MAHOUT_HEAPSIZE mahout运行时可用的最大heap大小 验证安装成功 源码和部分样本数据 需要下载源代码包(可以尝试下编译源代码方式的安装) 下载测试数据 将测试数据拷贝到HDFS 做一个kmeans聚类测试 K-means(K-均值)算法是最流行的聚类算法。首先随机地选取k个初始聚类中心,并把每个对象分配给离它最近的中心,从而得到一个初始聚类。然后,计算出当前每个聚类的重心作为新的聚类中心,并把每个对象重新分配到最近的中心。循环执行这一过程直至聚类质量不再提高为止。 做一个kmeans聚类测试 输出结果 观察输出 用mahout输出 20Newsgroups数据集 使用Mahout进行文本自动分类 ?贝叶斯分类器 ?学习集 ?测试集 ?新闻数据集的内容 贝叶斯分类算法是统计学的一种分类方法,它是一类利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯(Na?ve Bayes,NB)分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中,而且方法简单、分类准确率高、速度快。 文件内容 上传并解压数据 建立训练集 mahout org.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups \ -p /home/huang/data/20news-bydate-train \ -o /home/huang/data/bayes-test-input \ -a org.apache.mahout.vectorizer.DefaultAnalyzer \ -c UTF-8 建立训练集 建立测试集 建立测试集 上传数据到HDFS 训练贝叶斯分类器 mahout trainclassifier \ -

文档评论(0)

xinshengwencai + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5311233133000002

1亿VIP精品文档

相关文档