- 16
- 0
- 约6.03万字
- 约 58页
- 2015-12-23 发布于四川
- 举报
数据挖掘k--eans聚类算法的研究
摘要
近年来,全球数据的快速积累以及传播速度不断地提高。人们面
对如此海量的数据,处理方式略显落后,因此数据挖掘技术得到了前
所未有的迅猛发展。数据挖掘就是从庞大的数据集中发现未知的、有
规律性的但又具有价值的过程。聚类分析作为数据挖掘的重要技术之
一,其目的在于同一类别相似度尽可能的大,而不同类别相似度尽可
能的小。
K一131eans算法是最知名、最常用的聚类算法之一,它是基于划分
的算法。该算法在处理均值数据时快速、有效,计算复杂度具有可扩
展性等特点。但是必须需要用户事先确定聚类个数,并且常常终止于
局部最优致使得不到最佳聚类结果,随机选取初始聚类中心使得聚类
结果不稳定,此外对孤立点与噪声非常敏感等缺点。
本文首先介绍了数据挖掘的研究背景与意义,然后从聚类的准则
函数、数据类型、数据结构和相似度等相关概念介绍了聚类分析,在
此基础上全面细致地研究了K-means算法的原理、优点与缺点。针对
K.means算法的缺点提出了两种改进算法:首先从K—means算法需要
原创力文档

文档评论(0)