- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
??2004XiaoyuChenHuiWang??2004XiaoyuChenHuiWang聚类分析
——PAM算法报告时间:2004年6月日报告人:陈晓宇王晖什么是聚类聚类(clustering)是一个将数据集划分为若干组(class)或类(cluster)的过程,并使得同一个组内的数据对象具有较高的相似度;而不同组中的数据对象是不相似的。什么是聚类过程将一组(set)物理的或抽象的对象,根据它们之间的相似程度,分为若干组(group);其中相似的对象构成一组,这一过程就称为聚类过程(clustering)一个聚类(cluster)就是由彼此相似的一组对象所构成的集合;不同聚类中对象是不相似的。就是从给定的数据集中搜索数据项(items)之间所存在的有价值联系。01在许多应用,一个聚类中所有对象常常被当作一个对象来进行处理或分析等操作02什么是聚类分析许多领域,包括数据挖掘、统计学和机器学习都有聚类研究和应用!聚类分析可以帮助市场人员发现顾客群中所存在的不同特征的组群;并可以利用购买模式来描述这些不同特征的顾客组群商业方面聚类分析可以用来获取动物或植物所存在的层次结构,以及根据基因功能对其进行分类以获得对人群中所固有的结构更深入的了解。生物方面聚类分析的典型应用聚类还可以从地球观测数据库中帮助识别具有相似的土地使用情况的区域。此外还可以帮助分类识别互联网上的文档以便进行信息发现。01作为数据挖掘的一项功能,聚类分析还可以作为一个单独使用的工具,来帮助分析数据的分布、了解各数据类的特征、确定所感兴趣的数据类以便作进一步分析。02聚类分析也可以作为其它算法(诸如:分类和定性归纳算法)的预处理步骤03聚类分析的典型应用04基于网格类方法05基于模型类方法01划分类方法02分层类方法03基于密度类方法聚类方法聚类方法——划分类方法给定一个包含n个对象或数据行,划分方法将数据集划分为k个子集(划分)。其中每个子集均代表一个聚类(k≤n)。也就是说将数据分为k组,这些组满足以下要求每组至少应包含一个对象每个对象必须只能属于某一组聚类方法——划分类方法给定需要划分的个数k,一个划分方法创建一个初始划分;然后利用循环再定位技术,即通过移动不同划分(组)中的对象来改变划分内容。一个好的划分衡量标准通常就是同一个组中的对象“相近”或彼此相关;而不同组中的对象“较远”或彼此不同。当然还有许多其它判断划分质量的衡量标准。为获得基于划分聚类分析的全局最优结果就需要穷举所有可能的对象划分。为此大多数应用采用一至二种常用启发方法k-means算法,该算法中的每一个聚类均用相应聚类中对象的均值来表示;k-medoids算法,该算法中的每一个聚类均用相应聚类中离聚类中心最近的对象来表示。聚类方法——划分类方法聚类方法——分层类方法层次方法就是通过分解所给定的数据对象集来创建一个层次。根据层次分解形成的方式,可以将层次方法分为自下而上和自上而下两种类型。自下而上的层次方法从每个对象均为一个(单独的)组开始;逐步将这些(对象)组进行合并,直到组合并在层次顶端或满足终止条件为止。自上而下层次方法从所有均属于一个组开始;每一次循环将其(组)分解为更小的组;直到每个对象构成一组或满足终止条件为止。聚类方法——基于密度类方法基于密度概念的聚类方法实际上就是不断增长所获得的聚类直到“邻近”(数据对象或点)密度超过一定阈值(如:一个聚类中的点数,或一个给定半径内必须包含至少的点数)为止。这种方法可以用于消除数据中的噪声(异常数据),以及帮助发现任意形状的聚类。聚类方法——基于网格类方法基于网格方法将对象空间划分为有限数目的单元以形成网格结构。所有聚类操作均是在这一网格结构上进行的。这种方法主要优点就是处理时间由于与数据对象个数无关而仅与划分对象空间的网格数相关,从而显得相对较快聚类方法——基于模型类方法基于模型方法就是为每个聚类假设一个模型,然后再去发现符合相应模型的数据对象。一个基于模型的算法可以通过构造一个描述数据点空间分布的密度函数来确定具体聚类。它根据标准统计方法并考虑到“噪声”或异常数据,可以自动确定聚类个数;因而它可以产生很鲁棒的聚类方法聚类分析给定包含n个数据对象的数据库和所要形成的聚类个数k,划分算法将对象集合划分为k份(n≤k),其中每个划分均代表一个聚类。所形成的聚类将使得一个客观划分标准(常称为相似函数,如:距离)最优化从而使得一个聚类中的对象是“相似”的;而不
文档评论(0)