数据挖掘_概念与技术_聚类分析.ppt

下载文档 降价啦

8
0
约3.26万字
约 159页
2017-12-26 发布于江西
举报
版权申诉
保障服务

数据挖掘_概念与技术_聚类分析.ppt

1、本文档共159页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据挖掘_概念与技术_聚类分析

Data Mining: Concepts and Techniques 数据挖掘：概念与技术 Jiawei Han and Micheline Kamber著 Monrgan Kaufmann Publishers Inc. 范明孟小峰等译机械工业出版社第8章聚类分析英文幻灯片制作：Jiawei Han 中文幻灯片编译：范明第8章聚类分析什么是聚类（Clustering）分析? 聚类分析中的数据类型主要聚类方法分类划分方法（Partitioning Methods）层次方法（Hierarchical Methods）基于密度的方法（Density-Based Methods）基于网格的方法（Grid-Based Methods）基于模型的聚类方法（Model-Based Clustering Methods）孤立点分析（Outlier Analysis）小结什么是聚类分析? 聚类: 数据对象的集合/簇 (cluster) 同一簇中的对象彼此相似不同簇中的对象彼此相异聚类分析将数据对象分组成为多个类或簇聚类是无指导的分类: 没有预先定义的类典型应用作为洞察数据内部分布的独一无二的工具作为其它算法的预处理步骤聚类的一般应用模式识别空间数据分析通过特征空间聚类产生GIS的thematic maps 在空间数据挖掘中检测空间聚类并解释它们图象处理经济科学 (特别是市场研究) WWW 文本分类 Web日志数据聚类，发现类似访问模式群聚类应用的例子市场营销: 帮助市场营销者发现他们的基本顾客的不同组群，然后利用这一知识制定有针对性的营销计划国土利用在地球观测数据库中识别类似的国土使用区域保险对汽车保险持有者的分组城市规划根据房子的类型，价值，和地理位置对一个城市中房屋的分组地震研究应当将观测到的地震震中沿大陆板块断裂进行聚类什么是好的聚类方法? 一个好的聚类方法应当产生高质量的聚类类内相似性高类间相似性低聚类结果的质量依赖于方法所使用的相似性度量和它的实现. 聚类方法的质量也用它发现某些或全部隐藏的模式的能力来度量数据挖掘对聚类的要求可伸缩性有的算法当数据对象少于200时处理很好, 但对大量数据对象偏差较大大型数据库包含数百万个对象处理不同属性类型的能力许多算法专门用于数值类型的数据实际应用涉及不同的数据类型发现任意形状的聚类基于距离的聚类趋向于发现具有相近尺度和密度的球状簇一个簇可能是任意形状的数据挖掘对聚类的要求(续) 用于决定输入参数的领域知识最小化许多聚类算法要求用户输入一定的参数, 如希望产生的簇的数目.聚类结果对于输入参数十分敏感参数难以确定, 增加了用户的负担, 使聚类质量难以控制处理噪声数据和孤立点的能力一些聚类算法对于噪音数据敏感, 可能导致低质量的聚类结果现实世界中的数据库大都包含了孤立点, 空缺, 或者错误的数据对于输入记录的顺序不敏感一些聚类算法对于输入数据的顺序是敏感的, 以不同的次序输入会导致不同的聚类数据挖掘对聚类的要求(续) 高维性（high dimensionality）许多聚类算法擅长处理低维的数据, 可能只涉及两到三维数据库或者数据仓库可能包含若干维或者属性, 数据可能非常稀疏, 而且高度偏斜整合用户指定的约束现实世界的应用可能需要在各种约束条件下进行聚类要找到既满足特定的约束, 又具有良好聚类特性的数据分组是一项具有挑战性的任务可解释性和可用性用户希望聚类结果是可解释的, 可理解的, 和可用的聚类可能需要和特定的语义解释和应用相联系第8章. 聚类分析什么是聚类（Clustering）分析? 聚类分析中的数据类型主要聚类方法分类划分方法（Partitioning Methods）层次方法（Hierarchical Methods）基于密度的方法（Density-Based Methods）基于网格的方法（Grid-Based Methods）基于模型的聚类方法（Model-Based Clustering Methods）孤立点分析（Outlier Analysis）小结数据结构数据矩阵 (two modes) 相异度矩阵 (Dissimilarity matrix) (one mode) 评估聚类的质量相异度/相似度矩阵相似性用距离函数表示, 通常记作 d(i, j) 有一个单独的“质量”函数, 它度量聚类的“好坏”. 对于区间标度变量, 二元变量, 标称变量, 序数和比例标度变量, 距离函数的定义通常是很不相同的. 根据应用和数据语义, 不同的变量应赋予