模糊聚类算法.ppt

下载文档 降价啦

210
0
约1.6万字
约 106页
2017-08-21 发布于天津
举报
版权申诉
保障服务

模糊聚类算法.ppt

1、本文档共106页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

模糊聚类算法

更新模糊划分模糊聚类算法分析：权值wij指明点xi在簇Cj中的隶属度。如果xi靠近质心cj，则wij相对较高；而如果xi远离质心cj，则wij相对较低。 P=2 P2 分析：该指数降低赋予离点最近的簇的权值。事实上，随着p趋向无穷大，该指数趋向于0，而权值趋向于1/k；另一方面，随着p趋向于1，该指数加大赋予离点最近的簇的权值。随着p趋向于1，关于最近簇的隶属度权值趋向于1，而关于其他簇的隶属度权值趋向于0，这对应于K均值。目标函数-误差的平方和模糊聚类算法三个圆形簇上的模糊c均值。对于100点的二维数据集，使用模糊c均值发现其三个簇的结果。每个点指派到它具有最大隶属度权值的簇。属于各个簇的点用不同的标记显示，而点在簇中的隶属度用明暗程度表示。模糊聚类算法的优点与局限性能指示任意点属于任意簇的程度与k-means具有相同的优缺点计算密集性更高使用混合模型的聚类基于统计模型的聚类假定数据由一个统计过程产生，通过找出最佳拟合数据的统计模型来描述数据，其中统计模型用分布和该分布的一组参数描述 EM算法基于混合模型使用若干统计分布对数据建模，每个分布对应于一个簇，每个分布的参数提供对应簇的描述使用混合模型的聚类混合模型混合模型将数据看作从不同的概率分布得到的观测值的集合，概率分布可以是任意分布，但通常是多元正态的混合模型对应于如下数据产生过程，给定几个分布(通常类型相同但参数不同)，随机地选取一个分布并由它产生一个对象。重复该过程m次，其中m是对象的个数形式的，假定有k个分布和m个对象x1, …, xm，第j个分布的参数θj, Θ是所有参数的集合，即Θ={θ1, …, θk}，prob(xi| θj)是第i个对象来自第j个分布的概率，wj是对象x由第j个分布产生的概率，∑wj=1，对象x的概率如果对象以独立的方式产生，则整个对象集的概率是每个个体对象xi的概率的乘积使用混合模型的聚类混合模型对于混合模型，每个分布描述一个不同的组，即一个不同的簇。通过统计方法，我们可以由数据估计这些分布的参数，从而描述这些分布(簇)。我们可以识别哪个对象属于哪个簇；混合模型并不产生对象到簇的明确指派，而是给出具体对象属于特定簇的概率混合模型的聚类目标：识别每个对象属于哪个簇计算每个对象属于特定簇的概率混合模型中，每个簇对应于一个分布需要计算每个对象由给定分布产生的概率问题：每个分布的参数未知需要根据数据估计分布参数但是存在多个分布，属于每个分布的数据未知，如何估计分布的参数？用类似于k-means的方法使用最大似然估计模型参数给定数据的一个统计模型，必须估计该模型的参数。用于这类任务的标准方法是最大似然估计。考虑由一维高斯分布产生的m个点的集合。假定点的产生是独立的，则这些点的概率是个体点概率的乘积。由于这个概率是一个很小的数，一般使用对数概率。如果和的值未知，需要找到一个过程来估计它们。一种方法是选择合适的参数值使得数据是最可能的(最似然的)。这种方法在统计学上称作最大似然原理。使用最大似然估计混合模型参数：EM算法我们可以使用最大似然方法估计混合模型的参数。最简单的情况，我们知道哪个数据对象来自哪个分布。更一般的情况，我们不知道哪个点由哪个分布产生。这样，就不能直接计算每个点的概率，似乎也不能使用最大似然原理来估计参数。 EM算法计算每个点属于每个分布的概率，然后使用这些概率，计算参数的新的估计(这些参数是最大化该似然的参数)。该迭代继续下去，直到参数的估计不再改变或改变很小。通过一个迭代搜索，仍然使用了最大似然估计。 EM算法 1 选择模型参数的初始集 2 repeat 3 期望步：对于每个对象，计算每个对象属于每个分布的概率，即计算prob(分布j|xi, Θ) 4 最大化步：给定期望步得到的概率，找出最大化该期望似然的新的参数估计 5 until 参数不发生变化 EM算法聚类选择模型参数的初始值与k-means类似，可以随机选取，也可以用其他方法期望步：计算prob(分布j|xi, Θ) 一般假定每个分布都是高斯分布可以使用贝叶斯公式和全概率公式类似于k-means中将对象指派到簇最大化步：用最大似然估计类似于k-means中计算簇质心 EM算法聚类 EM算法—例子 2000个点，分别服从两个分布，假定σ已知， σ1= σ2=2.0，但μ1和μ2未知，点以相同的概率由两个分布产生随机选取μ1和μ2的初始值，如-2和3，初始参数分别是和，整个混合模型的参数集是期望步：计算某个点取自一个特定分布的概