模糊聚类算法.ppt

  1. 1、本文档共106页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
模糊聚类算法

更新模糊划分 模糊聚类算法 分析:权值wij指明点xi在簇Cj中的隶属度。如果xi靠近质心cj,则wij相对较高;而如果xi远离质心cj,则wij相对较低。 P=2 P2 分析:该指数降低赋予离点最近的簇的权值。事实上,随着p趋向无穷大,该指数趋向于0,而权值趋向于1/k;另一方面,随着p趋向于1,该指数加大赋予离点最近的簇的权值。随着p趋向于1,关于最近簇的隶属度权值趋向于1,而关于其他簇的隶属度权值趋向于0,这对应于K均值。 目标函数-误差的平方和 模糊聚类算法 三个圆形簇上的模糊c均值。对于100点的二维数据集,使用模糊c均值发现其三个簇的结果。每个点指派到它具有最大隶属度权值的簇。属于各个簇的点用不同的标记显示,而点在簇中的隶属度用明暗程度表示。 模糊聚类算法的优点与局限性 能指示任意点属于任意簇的程度 与k-means具有相同的优缺点 计算密集性更高 使用混合模型的聚类 基于统计模型的聚类 假定数据由一个统计过程产生,通过找出最佳拟合数据的统计模型来描述数据,其中统计模型用分布和该分布的一组参数描述 EM算法基于混合模型 使用若干统计分布对数据建模,每个分布对应于一个簇,每个分布的参数提供对应簇的描述 使用混合模型的聚类 混合模型 混合模型将数据看作从不同的概率分布得到的观测值的集合,概率分布可以是任意分布,但通常是多元正态的 混合模型对应于如下数据产生过程,给定几个分布(通常类型相同但参数不同),随机地选取一个分布并由它产生一个对象。重复该过程m次,其中m是对象的个数 形式的,假定有k个分布和m个对象x1, …, xm,第j个分布的参数θj, Θ是所有参数的集合,即Θ={θ1, …, θk},prob(xi| θj)是第i个对象来自第j个分布的概率,wj是对象x由第j个分布产生的概率,∑wj=1,对象x的概率 如果对象以独立的方式产生,则整个对象集的概率是每个个体对象xi的概率的乘积 使用混合模型的聚类 混合模型 对于混合模型,每个分布描述一个不同的组,即一个不同的簇。通过统计方法,我们可以由数据估计这些分布的参数,从而描述这些分布(簇)。 我们可以识别哪个对象属于哪个簇; 混合模型并不产生对象到簇的明确指派,而是给出具体对象属于特定簇的概率 混合模型的聚类 目标:识别每个对象属于哪个簇 计算每个对象属于特定簇的概率 混合模型中,每个簇对应于一个分布 需要计算每个对象由给定分布产生的概率 问题: 每个分布的参数未知 需要根据数据估计分布参数 但是存在多个分布,属于每个分布的数据未知,如何估计分布的参数? 用类似于k-means的方法 使用最大似然估计模型参数 给定数据的一个统计模型,必须估计该模型的参数。用于这类任务的标准方法是最大似然估计。 考虑由一维高斯分布产生的m个点的集合。假定点的产生是独立的,则这些点的概率是个体点概率的乘积。 由于这个概率是一个很小的数,一般使用对数概率。 如果 和 的值未知,需要找到一个过程来估计它们。一种方法是选择合适的参数值使得数据是最可能的(最似然的)。这种方法在统计学上称作最大似然原理。 使用最大似然估计混合模型参数:EM算法 我们可以使用最大似然方法估计混合模型的参数。 最简单的情况,我们知道哪个数据对象来自哪个分布。 更一般的情况,我们不知道哪个点由哪个分布产生。这样,就不能直接计算每个点的概率,似乎也不能使用最大似然原理来估计参数。 EM算法计算每个点属于每个分布的概率,然后使用这些概率,计算参数的新的估计(这些参数是最大化该似然的参数)。该迭代继续下去,直到参数的估计不再改变或改变很小。通过一个迭代搜索,仍然使用了最大似然估计。 EM算法 1 选择模型参数的初始集 2 repeat 3 期望步:对于每个对象,计算每个对象属于每个分布 的概率,即计算prob(分布j|xi, Θ) 4 最大化步:给定期望步得到的概率,找出最大化该期望似然的新的参数估计 5 until 参数不发生变化 EM算法聚类 选择模型参数的初始值 与k-means类似,可以随机选取,也可以用其他方法 期望步:计算prob(分布j|xi, Θ) 一般假定每个分布都是高斯分布 可以使用贝叶斯公式和全概率公式 类似于k-means中将对象指派到簇 最大化步: 用最大似然估计 类似于k-means中计算簇质心 EM算法聚类 EM算法—例子 2000个点,分别服从两个分布,假定σ已知, σ1= σ2=2.0,但μ1和μ2未知,点以相同的概率由两个分布产生 随机选取μ1和μ2的初始值,如-2和3,初始参数 分别是 和 ,整个混合模型的参数集是 期望步:计算某个点取自一个特定分布的概

您可能关注的文档

文档评论(0)

yanchuh + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档