数据挖掘_概念与技术_聚类分析.ppt

  1. 1、本文档共159页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘_概念与技术_聚类分析

Data Mining: Concepts and Techniques 数据挖掘:概念与技术 Jiawei Han and Micheline Kamber著 Monrgan Kaufmann Publishers Inc. 范明 孟小峰等译 机械工业出版社 第8章 聚类分析 英文幻灯片制作:Jiawei Han 中文幻灯片编译:范明 第8章 聚类分析 什么是聚类(Clustering)分析? 聚类分析中的数据类型 主要聚类方法分类 划分方法(Partitioning Methods) 层次方法(Hierarchical Methods) 基于密度的方法(Density-Based Methods) 基于网格的方法(Grid-Based Methods) 基于模型的聚类方法(Model-Based Clustering Methods) 孤立点分析(Outlier Analysis) 小结 什么是聚类分析? 聚类: 数据对象的集合/簇 (cluster) 同一簇中的对象彼此相似 不同簇中的对象彼此相异 聚类分析 将数据对象分组成为多个类或簇 聚类是无指导的分类: 没有预先定义的类 典型应用 作为洞察数据内部分布的独一无二的工具 作为其它算法的预处理步骤 聚类的一般应用 模式识别 空间数据分析 通过特征空间聚类产生GIS的thematic maps 在空间数据挖掘中检测空间聚类并解释它们 图象处理 经济科学 (特别是市场研究) WWW 文本分类 Web日志数据聚类,发现类似访问模式群 聚类应用的例子 市场营销: 帮助市场营销者发现他们的基本顾客的不同组群,然后利用这一知识制定有针对性的营销计划 国土利用 在地球观测数据库中识别类似的国土使用区域 保险 对汽车保险持有者的分组 城市规划 根据房子的类型,价值,和地理位置对一个城市中房屋的分组 地震研究 应当将观测到的地震震中沿大陆板块断裂进行聚类 什么是好的聚类方法? 一个好的聚类方法应当产生高质量的聚类 类内相似性高 类间相似性低 聚类结果的质量依赖于方法所使用的相似性度量和它的实现. 聚类方法的质量也用它发现某些或全部隐藏的模式的能力来度量 数据挖掘对聚类的要求 可伸缩性 有的算法当数据对象少于200时处理很好, 但对大量数据对象偏差较大 大型数据库包含数百万个对象 处理不同属性类型的能力 许多算法专门用于数值类型的数据 实际应用涉及不同的数据类型 发现任意形状的聚类 基于距离的聚类趋向于发现具有相近尺度和密度的球状簇 一个簇可能是任意形状的 数据挖掘对聚类的要求(续) 用于决定输入参数的领域知识最小化 许多聚类算法要求用户输入一定的参数, 如希望产生的簇的数目.聚类结果对于输入参数十分敏感 参数难以确定, 增加了用户的负担, 使聚类质量难以控制 处理噪声数据和孤立点的能力 一些聚类算法对于噪音数据敏感, 可能导致低质量的聚类结果 现实世界中的数据库大都包含了孤立点, 空缺, 或者错误的数据 对于输入记录的顺序不敏感 一些聚类算法对于输入数据的顺序是敏感的, 以不同的次序输入会导致不同的聚类 数据挖掘对聚类的要求(续) 高维性(high dimensionality) 许多聚类算法擅长处理低维的数据, 可能只涉及两到三维 数据库或者数据仓库可能包含若干维或者属性, 数据可能非常稀疏, 而且高度偏斜 整合用户指定的约束 现实世界的应用可能需要在各种约束条件下进行聚类 要找到既满足特定的约束, 又具有良好聚类特性的数据分组是一项具有挑战性的任务 可解释性和可用性 用户希望聚类结果是可解释的, 可理解的, 和可用的 聚类可能需要和特定的语义解释和应用相联系 第8章. 聚类分析 什么是聚类(Clustering)分析? 聚类分析中的数据类型 主要聚类方法分类 划分方法(Partitioning Methods) 层次方法(Hierarchical Methods) 基于密度的方法(Density-Based Methods) 基于网格的方法(Grid-Based Methods) 基于模型的聚类方法(Model-Based Clustering Methods) 孤立点分析(Outlier Analysis) 小结 数据结构 数据矩阵 (two modes) 相异度矩阵 (Dissimilarity matrix) (one mode) 评估聚类的质量 相异度/相似度矩阵 相似性用距离函数表示, 通常记作 d(i, j) 有一个单独的“质量”函数, 它度量聚类的“好坏”. 对于区间标度变量, 二元变量, 标称变量, 序数和比例标度变量, 距离函数的定义通常是很不相同的. 根据应用和数据语义, 不同的变量应赋予

您可能关注的文档

文档评论(0)

pangzilva + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档