互联网大规模数据分析技术--封面.docxVIP

  • 265
  • 0
  • 约5.44千字
  • 约 13页
  • 2016-12-25 发布于重庆
  • 举报
学 号: 1049721401349《互联网大规模数据分析技术》论文课程名称《互联网大规模数据分析技术》学 院计算机科学与技术学院专 业软件工程班 级计算机 1402 班姓 名谷鹏指导教师李琳2014——2015学年 第2学期基于kmeans算法的聚类分析引言数数据挖掘是数据库研究、开发和应用最活跃的分支科学之一,从大量数据中用非平凡的方法发现有用的知识和人们感兴趣的数据模式成了人们的一种自然需求 。随着数据挖掘研究的蓬勃发展,对于庞大的数据我们通常需要将其局分为几个类别,以方便对数据进行管理。因此出现很多数据挖掘的方法,其中聚簇是最基本的方法,它既可以独立地应用,也可以作为其他数据挖掘方法的前期工作。在 聚簇方法中,k-means算法是最著名和最常用的划分法之一,KMeans算法的基本思想是初始随机给定K个簇中心,按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心,从而确定新的簇心。一直迭代,直到簇心的移动距离小于某个给定的值。摘要 K-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最优分类,使得评价指标J最小。算法采用误差平方和准则函数作为

文档评论(0)

1亿VIP精品文档

相关文档