聚类(无监督学习)综述.ppt

下载文档 降价啦

4
0
约2.5千字
约 27页
2017-08-20 发布于安徽
举报
版权申诉
保障服务

聚类(无监督学习)综述.ppt

1、本文档共27页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

聚类（无监督学习）综述聚类问题的描述（1）聚类问题的描述（2）聚类问题：根据给定的数据集，要求寻找 T上的一个“好”的划分 (划分成m个类； m可以是已知的，也可以是未知的），满足约束条件：聚类问题的描述（3）模糊聚类问题：根据给定的数据集，要求寻找 T上的一个“好”的模糊划分 (划分成m个模糊集），满足约束条件：聚类问题的要点样本间的接近度（Proximity Measures）聚类评价准则：“好”的聚类指什么？聚类算法聚类有效性检验（统计假设检验）聚类结果解释（结合专家知识）聚类的泛化能力或一致性或抗扰动能力样本间的接近度度量差异性度量（Dissimilarity Measure,DM）对称性自己与自己的差异性最小例子：距离差异性度量相似性度量（Similarity Measure，SM）对称性自己与自己的相似性最大例子：高斯径向基函数常用的接近度度量点与点之间点与集合之间集合与集合之间点与点之间——DM 点与点之间——SM 点与集合之间集合与集合之间聚类评价准则类内样本间的接近度大，类间样本间的接近度小 ………… 主要聚类算法(1) N个样本聚为m类的可能聚类数S(N,m): 主要聚类算法(2) 顺序聚类（Sequential Clutering Algorithms）分层聚类（Hierachical Clutering Algorithms）模型聚类（based on cost function optimization) 其他顺序聚类最基本的顺序聚类算法（1）第1个样本归为第1类；（2）计算下一个样本到己有类的最短距离，若其距离小于给定的域值，则将该样本归为其对应的类，否则增加一个新类，并将该样本归为新类。（3）重复（2），直到所有样本都被归类。特点聚类结果与样本的顺序和给定的域值有关；聚类速度快分层聚类将数据对象按层次进行分解，形成一个分层的嵌套聚类(聚类谱系图或聚类树状图)，可分为凝聚算法（Agglomerative Algorithms）开始将每个对象作为一个类，然后相继地合并上轮中最相近的两个类，直到所有的类合并为一个类或者达到某个终止条件。分裂算法（Divisive Algorithms）开始将所有对象置于一个类中；然后将上轮的每个类按某个准则分裂为两类，在从中选择其中最好的一个分裂，作为该轮的类分裂；直到每个对象都在单独的一个类中或达到某个终止条件。缺点在于一旦一个合并或分裂完成，就不能撤销，导致分层聚类方法不能更正错误的决定。分层（凝聚）聚类的一些结论聚类结果和样本点间距离函数以及类间距离函数的关系：一般来讲，最短距离法使用于长条状或S形的类，最长距离法，重心法，类平均法，离差平方和法适用于椭球型的类。我们用Dk表示第k次并类操作时的距离，如果一个系统聚类法能够保证{Di}是单调上升的，那么我们称之为具有单调性。可以证明，最短距离法，最长距离法，类平均法，离差平方和法具有单调性，重心法和中间距离法不具有单调性。从聚类谱系图中可以看出，不具有单调性表现为出现一个凹陷，并且不容易划分类。分层（凝聚）聚类的一些结论有人从极端距离矩阵的观点出发，认为相比于其他方法，类平均法既不太浓缩，也不太扩张，比较适中；因而从空间的浓缩和扩张的角度，他们推荐类平均法。有人证明与初始距离矩阵A最接近的极端距离矩阵，恰好是使用最短距离法得到的极端距离矩阵，而其他的凝聚型分层聚类法都不具有这个最优性质。从这个角度出发，最短距离法比较受到推崇。模型聚类 K-means Clustering K-中心点聚类模糊K-均值聚类或ISODATA ……… K-means Clustering—模型将N个样本{x1,…,xN}划分到m个类{C1,…,Cm}中，最小化评分函数 K-means Clustering—实现随机选择m个样本点作为m个初始质心c1,…,cm ；按距离最近原则，将所有样本划分到以质心c1,…,cm为代表的m个类中；重新计算m个类的质心c1,…,cm；重复（2）和（3）直到质心c1,…,cm 无改变或目标函数J(c1,…,cm )不减小。 K-means Clustering—特点优点：当类密集，且类与类之间区别明显（比如球型聚集）时，聚类效果很好；强的一致性算法的复杂度是O(Nmt)(t为迭代次数)，对处理大数据集是高效的。缺点：结果与初始质心有关；必须预先给出聚类的类别数m；对“噪声”和孤立点数据敏感，少量的这些数据对平均值产生较大的影响；不适合发现非凸面形状的聚类 K-中心点