网站大量收购独家精品文档,联系QQ:2885784924

机器学习实战14.均值聚类_汪国会9.pptx

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Machine Perception and Interaction Group (MPIG) .cn 机器学习实战(14.1) MPIG Open Seminar 0193 公众号: mpig_robot K-均值聚类 汪国会 K-均值聚类 K-均值算法是一种简单的迭代型聚类算法,采用距离作为相似性指标,从而发现给定数据集中的K个类 算法流程: 创建k个点作为起始质心(经常为随机选择) 当任意一个点的簇分配结果发生改变时 对数据集中的每个数据点 对每个质心 计算质心与数据点之间的距离 将数据点分配到距其最近的簇 对每一个簇,计算簇中所有点的均值并将均值作为质心 图一 图二 图三 图四 代码实现 def loadDataSet(fileName): #文本解析函数 dataMat = [] fr = open(fileName) for line in fr.readlines(): curLine = line.strip().split(\t) fltLine = map(float, curLine) dataMat.append(fltLine) return dataMat def distEclud(vecA, vecB):#计算样本间的欧式距离: return np.sqrt(np.sum(np.power(vecA - vecB, 2))) def randCent(dataSet, k):#构建K个质心: warnings.simplefilter(ignore) n = np.shape(dataSet)[1] centroids = np.mat(np.zeros((k, n))) for j in range(n): minJ = min (dataSet[:,j]) rangeJ = float(max(dataSet[:, j]) - minJ) centroids[:, j] = minJ + rangeJ * np.random.rand(k, 1) return centroids 代码实现 def kMeans(dataSet, k, distMeas=distEclud, createCent=randCent): m = shape(dataSet)[0] clusterAssment = mat(zeros((m,2)))#create mat to assign data points 质心 centroids = createCent(dataSet, k)#创建k个质心 clusterChanged = True #判断数据所在簇是否改变 while clusterChanged: clusterChanged = False for i in range(m):#for each data point assign it to the closest centroid 计算最近的质心 minDist = inf; minIndex = -1 for j in range(k): distJI = distMeas(centroids[j,:],dataSet[i,:]) if distJI minDist: minDist = distJI; minIndex = j if clusterAssment[i,0] != minIndex: clusterChanged = True clusterAssment[i,:] = minIndex,minDist**2 print (centroids) for cent in range(k):#recalculate centroids 更新质心 ptsInClust = dataSet[nonzero(clusterAssment[:,0].A==cent)[0]]#get all the point in this cluster centroids[cent,:] = mean(ptsIn

文档评论(0)

199****9598 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档