数据挖掘8章聚类.ppt

  1. 1、本文档共118页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Data Mining: Concepts and Techniques 第八章 聚类分析 8.1 什么是聚类分析? 8.2 聚类分析中的数据类型 8.3主要聚类分析方法分类 8.4 划分方法(Partitioning Methods) 8.5 分层方法 8.6 基于密度的方法 8.7 基于网格的方法 8.8 基于模型(Model-Based)的聚类方法 8.9 孤立点分析 8.10 总结 8.1什么是聚类分析? 簇(Cluster):一个数据对象的集合 聚类分析 把一个给定的数据对象集合分成不同的簇; 在同一个簇(或类)中,对象之间具有相似性; 不同簇(或类)的对象之间是相异的。 聚类是一种无监督分类法: 没有预先指定的类别; 典型的应用 作为一个独立的分析工具,用于了解数据的分布; 作为其它算法的一个数据预处理步骤; 聚类的常规应用 模式识别 空间数据分析 在GIS中,通过聚类发现特征空间来建立主题索引; 在空间数据挖掘中,检测并解释空间中的簇; 图象处理 经济学 (尤其是市场研究方面) WWW 文档分类 分析WEB日志数据来发现相似的访问模式 应用聚类分析的例子 市场销售: 帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划; 土地使用: 在一个陆地观察数据库中标识那些土地使用相似的地区; 保险: 对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户; 城市规划: 根据类型、价格、地理位置等来划分不同类型的住宅; 地震研究: 根据地质断层的特点把已观察到的地震中心分成不同的类; 什么是一个好的聚类方法? 一个好的聚类方法要能产生高质量的聚类结果——簇,这些簇要具备以下两个特点: 高的簇内相似性 低的簇间相似性 聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现; 聚类方法的好坏还取决与该方法是能发现某些还是所有的隐含模式; 数据挖掘对聚类的典型要求: 可伸缩性 能够处理不同类型的属性 能发现任意形状的簇 在决定输入参数的时候,尽量不需要特定的领域知识; 能够处理噪声和异常 对输入数据对象的顺序不敏感 能处理高维数据 能产生一个好的、能满足用户指定约束的聚类结果 结果是可解释的、可理解的和可用的 8.2 聚类分析中的数据类型两种数据结构 数据矩阵 (two modes) 差异度矩阵 (one mode) 评价聚类质量 差异度/相似度矩阵: 相似度通常用距离函数来表示; 有一个单独的质量评估函数来评判一个簇的好坏; 对不同类型的变量,距离函数的定义通常是不同的,这在下面有详细讨论; 根据实际的应用和数据的语义,在计算距离的时候,不同的变量有不同的权值相联系; 很难定义“足够相似了”或者“足够好了” 只能凭主观确定; 聚类分析中的数据类型 区间标度变量(Interval-scaled variables): 二元变量(Binary variables): 标称型,序数型和比例型变量(Nominal, ordinal, and ratio variables): 混合类型变量(Variables of mixed types): 区间标度变量 数据标准化 计算绝对偏差的平均值: 其中 计算标准度量值 (z-score) 使用绝对偏差的平均值比使用标准偏差更健壮(robust) 计算对象之间的相异度 通常使用距离来衡量两个对象之间的相异度。 常用的距离度量方法有: 明考斯基距离( Minkowski distance): 其中 i = (xi1, xi2, …, xip) 和 j = (xj1, xj2, …, xjp) 是两个p维的数据对象, q是一个正整数。 当q = 1时, d 称为曼哈坦距离( Manhattan distance) 当q=2时, d 就成为欧几里德距离: 距离函数有如下特性: d(i,j) ? 0 d(i,i) = 0 d(i,j) = d(j,i) d(i,j) ? d(i,k) + d(k,j) 可以根据每个变量的重要性赋予一个权重 二元变量 二元变量的可能性表 其中每个对象有p个变量,且 p=q+r+s+t 二元变量 对称的 如果一个二元变量的两个状态是同等价值的,具有相同的权重。即可以任取其中一种状态编码为1或者0 对于对称的二员变量,采用简单匹配系数来评价两个对象之间的相异度 二元变量 非对称的 如果变量的两个状态不是同样重要的,则称该变量是不对称的。 根据惯例,将比较重要通常也是出现概率比较小的状态编码为1,将另一中状态编码为0。 对于非对称的二员变量,采用Jaccard系数来评价两个对象之间的相异度 二元变量的相异度计算 例8.1 gender 是一个对称的二

文档评论(0)

seunk + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档