K-Means算法的Hadoop实现讲述.doc

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
K-Means算法的Hadoop实现讲述

K-Means 算法的 Hadoop 实现 K-Means 算法的 Hadoop 实现 K-Means 算法简介 k-Means是一种聚类分析算法,它是一种无监督学习算法。它主要用来计算数据的聚集,将数据相近的点归到同一数据蔟。学习聚类时我们需要了解聚类与分类的区别,分类的类别是我们实现设定好的,而聚类的类别是通过计算得到的。 算法原理 维基百科的算法描述如下: 已知观测集 (x1,x2,x3,...,xn) ,其中每个观测都是一个d-维实向量,k-平均聚类要把这n个观测划分到k个集合中 (k≤n) ,使得组内平方和(WCSS within-cluster sum of squares)最小。换句话说,它的目标是找到使得下式满足的聚类 Si argminS=∑i=1k∑x∈Si||x?μi||2 其中 μi 是 Si 中所有点的均值。 简单描述就是:不断迭代计算各个数据簇的中心点,直到该中心点趋于稳定。 该算法的优点是实现非常简单,主要缺点有如下: 对异常数据敏感。当单独几个数据远离数据簇时会影响聚类效果。 由于 K 值是事先给定的,所以 K 值的选择难以估计。也就是我们事先并不知道需要分多少个类别。 ISODATA 算法可用于解决此问题,得到较为合理的类型数目K 初始的数据簇的中心点需要事先给定,初始种子点很大程度上会影响聚类的结果。 K-Means++ 算法可以用来解决这个问题,其可以有效地选择初始点 步骤 创建k个数据簇的中心点。 计算所有数据点到这 k 个中心点的距离,将其划归到距离自己最近的中心点。 根据上次聚类结果,计算各个数据簇的算数平均值作为新的数据簇中心点。 将所有数据在新的中心点上重新聚类。 重复第4步,直到中心点趋于稳定。 中心点距离算法 求某一数据点到中心点的距离可以采用欧几里得距离公式: distance=∑k=1n(xik?xjk)2??????????????√ 可以参考 K-Means 算法(CoolShell) 里面的 求点群中心的算法 这一节,有三种距离公式。 Hadoop 环境简介 Hadoop Version root@hadoop-master:/myjob/kmeans# hadoop version Hadoop 2.7.2 Subversion Unknown -r Unknown Compiled by root on 2016-05-27T18:05Z Compiled with protoc 2.5.0 From source with checksum d0fda26633fa762bff87ec759ebe689c This command was run using /usr/local/hadoop/share/hadoop/common/hadoop-common-2.7.2.jar Hadoop 参数设置 core-site.xml ?xml version=1.0? configuration property namefs.defaultFS/name valuehdfs://hadoop-master:9000//value /property /configuration hdfs-site.xml ?xml version=1.0? configuration property name.dir/name valuefile:///root/hdfs/namenode/value descriptionNameNode directory for namespace and transaction logs storage./description /property property namedfs.datanode.data.dir/name valuefile:///root/hdfs/datanode/value descriptionDataNode directory/description /property property namedfs.replication/name value3/value /property /configuration mapred-site.xml ?xml version=1.0? configuration property name/name valuey

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档