数据挖掘(聚类).ppt

下载文档 降价啦

109
0
约1.24万字
约 76页
2018-01-17 发布于湖北
举报
版权申诉
保障服务

数据挖掘(聚类).ppt

1、本文档共76页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据挖掘(聚类)

数据挖掘--聚类分析胡志伟何乐什么是聚类？聚类(clustering)也称为聚类分析 (某些应用中也称数据分割),指将样本分到不同的组中使得同一组中的样本差异尽可能的小，而不同组中的样本差异尽可能的大。聚类得到的不同的组称为簇(cluster)。聚类和分类的区别分类是一种监督学习，聚类是一种无监督学习，二者最主要的区别是聚类的样本没有类标号，而分类的样本具有类标号。分类具有训练数据和测试数据，而聚类没有训练，是通过观察学习。对聚类分析的要求可伸缩性处理不同类型属性的能力发现任意形状的聚类用于决定输入参数的领域知识最小化处理噪声数据和孤立点的能力对于输入纪录的顺序不敏感高维性基于约束的聚类可解释性和可用性聚类分析中的数据结构聚类算法中有数据矩阵和相异度矩阵两种数据结构.但许多聚类算法都是以相异度矩阵为基础，如果数据是用数据矩阵形式表示，则往往要将其先转化为相异度矩阵。相异度矩阵是一个对象-对象结构.它存放所有n个对象两两之间所形成的差异性(相似性).相异度矩阵采用d(i,j) n×n的下三角矩阵表示。d（i,j）是对象i和j之间相异性的量化表示，通常为非负值，两个对象越相似或“接近”，其值越接近0，越不同，其值越大。相异度矩阵可用距离公式计算得到，相异度也称为距离（主要欧氏距离和曼哈顿距离）。区间标度变量：是一个粗略线性标度的连续度量如重量、高度、温度等，选用的度量单位将直接影响聚类的结果，度量单位越小，变量的取值范围越大，对聚类效果的影响就越大。需要实现度量值的标准化，将原来的值转化为无单位的值。二元变量：只有两个状态，取0或1值；其中0代表状态不存在；而1则代表相应的状态存在。根据0和1表示的重要性是否相同：对称的二元变量：性别不对称的二元变量：阴、阳性标称型变量：是二元变量的一个扩展。标称变量可对两个以上的状态进行描述，如：红，橙，蓝，绿，青，蓝，紫。序数型变量：一个序数型变量可是连续的，也可是离散的。离散的序数型变量与标称型变量相似。连续的序数型变量像一组未知范围的连续数据，类似于区间标度变量，但它没有单位，值的相对位置要比它的实际数值有意义得多。比例标度型变量：比例标度型变量是在非线性的标度上取正的测量值,诸如指数比例,AeBt或Ae-Bt(A和B为正的常数)。混合类型的变量：在实际数据库中,数据对象往往是用复合数据类型来描述;而且它们常常同时包含几种数据类型。基本聚类方法概述划分方法层次方法基于密度的方法基于网格的方法划分聚类方法给定n个数据对象的数据集D，及要生成的簇数k，划分算法把数据对象组成k（k=n）个分区，其中每个分区代表一个簇。而且k满足以下条件： 1.每一个簇至少包含一个对象 2.每一个对象属于且仅属于一个簇。常用的划分方法 k-均值：一种基于形心的技术 k-中心点：一种基于代表对象的技术 k-均值：一种基于形心的技术基于形心的划分技术使用簇Ci的形心代表该簇。从概念上来讲，簇的形心是它的中心点，一般来说用分配给该簇的点的均值来定义。对象p∈Ci与该簇的代表ci之差用dist（p，ci）度量，dist（x，y）是点x，y的欧氏距离。欧氏距离： i=(xi1,xi2,…,xin) 和 j=(yj1,yj2,…,yjn) 簇Ci的质量可以用簇内变差度量，它是Ci中所有对象和形心ci之间的误差的平方和，定义为： E是数据集中所有对象的误差的平方和;P是空间中的点，表示给定的数据对象;ci是簇Ci:的形心(p和ci都是多维的) k-means 算法基本步骤从D（包含n个对象的数据集）中任意选择k个对象作为初始簇中心; 根据簇中对象的均值，将每个对象分配到最相似的簇; 更新簇均值，即重新计算每个簇中对象的均值; 　　 until不再发生变化; 不能保证k一均值方法收敛于全局最优解，并且它常常止于于一个局部最优解。结果可能依赖于初始簇中心的随机选择。 k-means算法示例 k-means算法的不足必须事先给出要生成的簇数K，而且对初始值敏感。不适合用于发现非凸形状的簇，或大小差别很大的簇，对噪声和离群点敏感。为了解决k-means算法对离群点敏感这个问题，引入了k-中心点算法 k-中心点算法 k中心点方法不采用簇中对象的平均值作为簇中心，而选用簇中离平均值最近的对象作为簇中