- 1、本文档共50页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SPSSClementine之聚类分析
数据挖掘原理与SPSS Clementine应用宝典 元昌安 主编 邓 松 李文敬 刘海涛 编著 电子工业出版社 主要内容 聚类分析原理 聚类分析常用算法分类 划分聚类方法 层次聚类方法 基于密度的聚类方法 基于网格的聚类方法 基于模型的聚类方法 高维数据的聚类方法 模糊聚类FCM 应用实例分析 8.1.1聚类分析介绍 聚类就是按照事物的某些属性,把事物聚集成类,使类间的相似性尽可能小,类内相似性尽可能大。 数据挖掘对聚类的典型要求如下: 可伸缩性 处理不同类型属性的能力 发现任意形状的聚类 用于决定输入参数的领域知识最小化 处理噪声数据的能力 8.1.2聚类分析中的数据类型 数据矩阵:用m个变量(也称为属性)来表现n个对象 相异度矩阵:存储n个对象两两之间的近似度,通常用一个维的矩阵表示 8.1.3 区间标度变量 计算均值绝对偏差 计算标准化的度量值 欧几里德距离 曼哈顿距离 明考斯基距离 8.1.4 二元变量 简单匹配系数 Jaccard系数 Rao系数 8.1.5 分类型、序数型变量 分类变量 序数型变量 8.1.6 向量对象 夹角余弦 相关系数 8.2 聚类分析常用算法分类 划分方法 层次方法 基于密度的方法 基于网格的方法 基于模型的方法 高维数据的聚类方法 模糊聚类FCM 8.3 划分聚类方法 k-means k-means算法是基于质心的算法。k-means算法以k为参数,把n个对象分为k个簇,以使簇内具有较高的相似度,而簇间的相似度最低。相似度的计算根据一个簇中对象的平均值(被看作簇的重心)来进行。 Step1 任意选择k个对象作为初始的簇中心; Step2 repeat; Step3 根据与每个中心的距离,将每个对象赋给最近的簇; Step4 重新计算每个簇的平均值; Step5 until 不再发生变化。 8.3 划分聚类方法 k-medoids 不采用簇中对象的平均值作为参照点,可以选用簇中位置最中心的对象,即medoid。这样划分方法仍然是基于最小化所有对象与其参照点之间的相异度之和的原则来执行的。 Step1 随机选择k个对象作为初始的代表对象; Step2 repeat; Step3 指派每个剩余的对象给离它最近的代表对象所代表的簇; Step4 随意地选择一个非代表对象; Step5 计算用代替的总代价S; Step6 如果,则用替换,形成新的k个代表对象的集合; Step7 until 不发生变化。 8.4 层次聚类方法 8.4.1凝聚的和分裂的层次聚类 8.4.2 BIRCH:平衡迭代归约和聚类 8.4.3 ROCK:分类属性层次聚类算法 8.4.4 CURE:使用代表点聚类方法 8.4.5 Chameleon:动态建模层次聚类 8.4.1 凝聚的和分裂的层次聚类 凝聚的方法 首先将每个对象作为单独的一个原子簇 然后相继地合并相近的对象或原子簇 直到所有的原子簇合并为一个(层次的最上层),或者达到一个终止条件 分裂的方法 首先将所有的对象置于一个簇中 在迭代的每一步中,一个簇被分裂为更小的簇, 直到最终每个对象在单独的一个簇中,或者达到一个终止条件 8.4.1 凝聚的和分裂的层次聚类 8.4.2 BIRCH:平衡迭代归约和聚类 BIRCH通过聚类特征(Clustering Feature,CF)对簇的信息进行汇总描述,然后对簇进行聚类。 BIRCH算法的主要目标是使I/0时间尽可能小, 原因在于大型数据集通常不能完全装入内存中。BIRCH算法通过把聚类分为多个阶段来达到此目的 首先通过构建CF-树对原数据集进行预聚类 在前面预聚类的基础上进行聚类 8.4.2 BIRCH:平衡迭代归约和聚类 8.4.2 BIRCH:平衡迭代归约和聚类 BIRCH共包含四个阶段: 预聚类阶段:扫描整个数据库,构建初始聚类特征树,该树保存在内存中,用简洁的汇总信息或者叶子节点中的子聚类来代表数据点的密集区域。 (可选阶段)重新扫描叶子节点项,来构建一个更小的CF-树。 采用别的聚类算法,对CF-tree的叶子节点进行聚类。 (可选阶段)把前一个阶段中找到的聚类的质心,用作种子来创建最终的聚类。其它数据点根据到这些种子所代表聚类的远近来重新分配到各个聚类中。 8.4.3 ROCK:分类属性层次聚类算法 分类属性的层次聚类算法针对具有分类属性的数据使用了链接的概念。 对于聚类包含布尔或分
文档评论(0)