- 9
- 0
- 约2.71千字
- 约 5页
- 2021-12-01 发布于山东
- 举报
聚类剖析原理及步骤
聚类剖析原理及步骤
聚类剖析原理及步骤
聚类剖析原理及步骤
——将未知数据按相像程度分类到不同的类或簇的过程
1》 传统的统计聚类剖析方法包含系统聚类法、分解法、加入法、动向聚类
法、有序样品聚类、有重叠聚类和模糊聚类等。采纳 k-均值、 k-中心点等
算法的聚类剖析工具已被加入到很多着名的统计剖析软件包中,如
SPSS、SAS 等。
典型应用
1》 动植物分类 和对基因进行分类
2》 在网长进行文档归类来修复信息
3》 帮助电子商务的用户认识自己的客户,向客户供给更适合的服务
主要步骤
1》 数据预办理——选择数目,种类和特色的标度(( 依照特色选择和
抽取)特色选择选择重要的特色,特色抽取把输入的特色转变为一个新的显着特色,它们常常被
用来获取一个适合的特色集来为防止 “维数灾 ”进行聚类 )和将孤立点移出数据 (孤
立点是不依赖于一般数据行为或模型的数据 )
2》 为权衡数据点间的相像度定义一个距离函数—— 既然相近似性
是定义一个类的基础,那么不同数据之间在同一个特色空间相像度的权衡关于聚类步骤是很重要的,因为特色种类和特色标度的多样性,距离胸怀一定慎重,它常常依靠于应用,比如,往常经过定义在特色空间的距离胸怀来评估不同对象的相异性,好多距离度都应用在一些不同的领域一个简单的距离胸怀,
如 Euclidean 距离,常常被用作反应不同数据间的相异性,一些相关相像性的胸怀,比如 PMC 和 SMC,能够被用来特色化不同数据的观点相像性,在图像聚类上,子图图像的偏差改正能够被用来权衡两个图形的相像性
3》 聚类或分组—— 将数据对象分到不同的类中 【区分方法 (区分方法一
般从初始区分和最优化一个聚类标准开始 ,Crisp Clustering 和 Fuzzy Clusterin 是划
分方法的两个主要技术, Crisp Clustering,它的每一个数据都属于独自的类; Fuzzy Clustering,它的每个数据可能在任何一个类中)和 层次方法 (鉴于某个标准产生
一个嵌套的区分系列,它能够胸怀不同类之间的相像性或一个类的可分别性用来归并和分裂类)是聚类剖析的两个主要方法,此外还有鉴于密度的聚类,鉴于模型的
聚类,鉴于网格的聚类 】
4》 评估输出—— 评估聚类结果的质量(它是经过一个类有效索引来评论,,一般
来说,几何性质,包含类间的分别和类内部的耦合,一般都用来评论聚类结果的质量,类有效索引在决定类的数目时常常饰演了一个重要角色,类有效索引的最正确值被希望从真切的类数目中获取,一个往常的决定类数目的方法是选择一个特定的类有效索引的最正确值,这个索引可否真切的得出类的数目是判断该索引能否有效的标准,好多已经存在的标准关于互相分别的类数据会合都能得出很好的结果,可是关于复杂的数据集,却往常行不通,比如,关于交叠类的会合。)
聚类剖析的主要计算方法原理及步骤
区分法
1》 将数据集切割成 K 个组(每个组起码包含一个数据且每一个数据纪录属于且仅属于一个分组) ,
每个构成为一类
2》 经过频频迭代的方法改变分组,使得每一次改
进以后的分组方案都较前一次好 (标准就是:同一分组中的记录越近越好,而不同分组中的纪录越远越好,使用这个基本思想的算法有:
K-MEANS 算法、 K-MEDOIDS 算法、 CLARANS 算法)
层次法
1》“自底向上 ”方案——将每个数据独自作为一组,经过频频迭代的方法,把那些互相周边的组归并成一个组,
直到全部的记录构成一个分组或许某个条件知足为止,
代表算法有: BIRCH 算法、 CURE 算法、 CHAMELEON
算法等
2》“自顶向下 ”方案
主要算法原理及步骤
K-MEANS 算法
k-means 算法接受输入量 k ;而后将 n 个数据对象区分为 k 个
聚类以便使得所获取的聚类知足:同一聚类中的对象相像度较高;而
不同聚类中的对象相像度较小。聚类相像度是利用各聚类中对象的均
值所获取一个 “中心对象 ”(引力中心)来进行计算的。 k-means 算法
的工作过程说明以下:
1》从 n 个数据对象随意选择 k 个对象作为初始聚类中心;
而关于所剩下其余对象,则依据它们与这些聚类中心的相像度(距
离),分别将它们分派给与其最相像的(聚类中心所代表的)聚类;
2》计算每个所获新聚类的聚类中心(该聚类中全部对象的
均值);不停重复这一过程直到标准测度函数开始收敛为止。一般都
采纳均方差作为标准测度函数 .
个聚类拥有以下特色:各聚类自己尽可能的紧凑,而各聚类之间尽可能的分开。
K-MEDOIDS 算法
K-MEANS 有其弊端:产生类的大小相差不会很大,关于脏数
据很敏感。
改良的算法:
k—medoids 方法:
选用一个对象叫做 mediod 来取代
原创力文档

文档评论(0)