- 1、本文档共106页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
模糊聚类算法
更新模糊划分 模糊聚类算法 分析:权值wij指明点xi在簇Cj中的隶属度。如果xi靠近质心cj,则wij相对较高;而如果xi远离质心cj,则wij相对较低。 P=2 P2 分析:该指数降低赋予离点最近的簇的权值。事实上,随着p趋向无穷大,该指数趋向于0,而权值趋向于1/k;另一方面,随着p趋向于1,该指数加大赋予离点最近的簇的权值。随着p趋向于1,关于最近簇的隶属度权值趋向于1,而关于其他簇的隶属度权值趋向于0,这对应于K均值。 目标函数-误差的平方和 模糊聚类算法 三个圆形簇上的模糊c均值。对于100点的二维数据集,使用模糊c均值发现其三个簇的结果。每个点指派到它具有最大隶属度权值的簇。属于各个簇的点用不同的标记显示,而点在簇中的隶属度用明暗程度表示。 模糊聚类算法的优点与局限性 能指示任意点属于任意簇的程度 与k-means具有相同的优缺点 计算密集性更高 使用混合模型的聚类 基于统计模型的聚类 假定数据由一个统计过程产生,通过找出最佳拟合数据的统计模型来描述数据,其中统计模型用分布和该分布的一组参数描述 EM算法基于混合模型 使用若干统计分布对数据建模,每个分布对应于一个簇,每个分布的参数提供对应簇的描述 使用混合模型的聚类 混合模型 混合模型将数据看作从不同的概率分布得到的观测值的集合,概率分布可以是任意分布,但通常是多元正态的 混合模型对应于如下数据产生过程,给定几个分布(通常类型相同但参数不同),随机地选取一个分布并由它产生一个对象。重复该过程m次,其中m是对象的个数 形式的,假定有k个分布和m个对象x1, …, xm,第j个分布的参数θj, Θ是所有参数的集合,即Θ={θ1, …, θk},prob(xi| θj)是第i个对象来自第j个分布的概率,wj是对象x由第j个分布产生的概率,∑wj=1,对象x的概率 如果对象以独立的方式产生,则整个对象集的概率是每个个体对象xi的概率的乘积 使用混合模型的聚类 混合模型 对于混合模型,每个分布描述一个不同的组,即一个不同的簇。通过统计方法,我们可以由数据估计这些分布的参数,从而描述这些分布(簇)。 我们可以识别哪个对象属于哪个簇; 混合模型并不产生对象到簇的明确指派,而是给出具体对象属于特定簇的概率 混合模型的聚类 目标:识别每个对象属于哪个簇 计算每个对象属于特定簇的概率 混合模型中,每个簇对应于一个分布 需要计算每个对象由给定分布产生的概率 问题: 每个分布的参数未知 需要根据数据估计分布参数 但是存在多个分布,属于每个分布的数据未知,如何估计分布的参数? 用类似于k-means的方法 使用最大似然估计模型参数 给定数据的一个统计模型,必须估计该模型的参数。用于这类任务的标准方法是最大似然估计。 考虑由一维高斯分布产生的m个点的集合。假定点的产生是独立的,则这些点的概率是个体点概率的乘积。 由于这个概率是一个很小的数,一般使用对数概率。 如果 和 的值未知,需要找到一个过程来估计它们。一种方法是选择合适的参数值使得数据是最可能的(最似然的)。这种方法在统计学上称作最大似然原理。 使用最大似然估计混合模型参数:EM算法 我们可以使用最大似然方法估计混合模型的参数。 最简单的情况,我们知道哪个数据对象来自哪个分布。 更一般的情况,我们不知道哪个点由哪个分布产生。这样,就不能直接计算每个点的概率,似乎也不能使用最大似然原理来估计参数。 EM算法计算每个点属于每个分布的概率,然后使用这些概率,计算参数的新的估计(这些参数是最大化该似然的参数)。该迭代继续下去,直到参数的估计不再改变或改变很小。通过一个迭代搜索,仍然使用了最大似然估计。 EM算法 1 选择模型参数的初始集 2 repeat 3 期望步:对于每个对象,计算每个对象属于每个分布 的概率,即计算prob(分布j|xi, Θ) 4 最大化步:给定期望步得到的概率,找出最大化该期望似然的新的参数估计 5 until 参数不发生变化 EM算法聚类 选择模型参数的初始值 与k-means类似,可以随机选取,也可以用其他方法 期望步:计算prob(分布j|xi, Θ) 一般假定每个分布都是高斯分布 可以使用贝叶斯公式和全概率公式 类似于k-means中将对象指派到簇 最大化步: 用最大似然估计 类似于k-means中计算簇质心 EM算法聚类 EM算法—例子 2000个点,分别服从两个分布,假定σ已知, σ1= σ2=2.0,但μ1和μ2未知,点以相同的概率由两个分布产生 随机选取μ1和μ2的初始值,如-2和3,初始参数 分别是 和 ,整个混合模型的参数集是 期望步:计算某个点取自一个特定分布的概
您可能关注的文档
- 美国物理声学公司北京代表处physical acoustics corp .pdf
- 美国政治学研究方法发展现状及趋势 - 南京大学政府管理学院.doc
- 美育的渗透 - 横泾中学.doc
- 门电路延时查找表的凸平滑算法 - 计算机工程与应用.pdf
- 蒙东区域绿化及养护工程 二标段分包商招标公告 1、招标人:内蒙古蒙 .doc
- 蒙特卡罗法在桥梁损伤识别中的应用 - 重庆交通大学.pdf
- 米国gaiseプロジェクトにおける 统计教育カリキュラムと评似方法.ppt
- 棉花 - 中国农业ceo网.ppt
- 棉花糖大厦的材料.ppt
- 棉花生长过程.ppt
- 2024高考物理一轮复习规范演练7共点力的平衡含解析新人教版.doc
- 高中语文第5课苏轼词两首学案3新人教版必修4.doc
- 2024_2025学年高中英语课时分层作业9Unit3LifeinthefutureSectionⅢⅣ含解析新人教版必修5.doc
- 2024_2025学年新教材高中英语模块素养检测含解析译林版必修第一册.doc
- 2024_2025学年新教材高中英语单元综合检测5含解析外研版选择性必修第一册.doc
- 2024高考政治一轮复习第1单元生活与消费第三课多彩的消费练习含解析新人教版必修1.doc
- 2024_2025学年新教材高中英语WELCOMEUNITSectionⅡReadingandThi.doc
- 2024_2025学年高中历史专题九当今世界政治格局的多极化趋势测评含解析人民版必修1.docx
- 2024高考生物一轮复习第9单元生物与环境第29讲生态系统的结构和功能教案.docx
- 2024_2025学年新教材高中英语UNIT5LANGUAGESAROUNDTHEWORLDSect.doc
最近下载
- 会计学原理23版 英文版课件WildFAP23eCh05PPT.pptx
- 华为公司职类职种职级体系的划分及职业发展通道设计.pdf VIP
- 建筑解析流水别墅.pptx
- 2025届高三英语复习语法填空专题(24张PPT).pptx VIP
- 基于PLC的磨矿控制系统设计.docx
- 有限元分析论文.doc VIP
- 苏教版小学科学五年级上册第四单元《水在自然界的循环》大单元教学设计(含练习).docx
- 聚氯乙烯热收缩膜标签验收标准.doc VIP
- 2023年安徽省高中学业水平合格性考试数学试卷真题(含答案详解) (2).pdf VIP
- 2025届江苏省南菁高级中学物理高一第一学期期中达标检测模拟试题含解析.doc
文档评论(0)