网站大量收购独家精品文档,联系QQ:2885784924

7、聚类分析 -new.pdf

  1. 1、本文档共134页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
computer.nepu.edu.cn 数据仓库与数 据 挖 掘 主讲教师:王浩畅 School of Computer Information Technology of NEPU 第7章聚类分析 7.1 什么是聚类分析? 7.2 聚类分析中的数据类型 7.3 主要的聚类方法分类 7.4 划分方法 7.5 层次方法 7.6 基于密度的方法 7.7 基于网格的方法 7.8 基于模型的方法 7.9 孤立点分析 什么是聚类分析?  聚类分析  将物理或抽象对象的集合分组成为由类似的对象组成的多个 类的过程  聚类(簇):数据对象的集合  在同一个聚类(簇)中的对象彼此相似  不同簇中的对象则相异  聚类是一种无指导的学习:没有预定义的类编号  聚类分析的数据挖掘功能  作为一个独立的工具来获得数据分布的情况  作为其他算法(如:特征和分类)的预处理步骤 聚类分析的典型应用  空间数据分析  在GIS 系统中,对相似区域进行聚类,产生主题地图  检测空间聚类,并给出它们在空间数据挖掘中的解释  图像处理  市场营销:帮市场分析人员从客户基本库中发现 不同的客户群,从而可以对不同的客户群采用不 同的营销策略  万维网  对WEB 上的文档进行分类  对WEB 日志的数据进行聚类,以发现相同的 用户访问模式 聚类分析应用实例  土地使用:在地球监测数据库中,发现相同的土 地使用区域  保险业:发现汽车保险中索赔率较高的客户群  城市规划:根据房子的类型、价值和地理位置对 其进行分组  地震研究:将观测到的震中点沿板块断裂带进行 聚类,得出地震高危区 什么是好的聚类分析?  一个好的聚类分析方法会产生高质量的聚类  高类内相似度  低类间相似度  作为统计学的一个分支,聚类分析的研究主要是基于 距离的聚类;一个高质量的聚类分析结果,将取决于 所使用的聚类方法  聚类方法的所使用的相似性度量和方法的实施  方法发现隐藏模式的能力 数据挖掘对聚类分析的要求 (1)  可扩展性(Scalability)  大多数来自于机器学习和统计学领域的聚类算法在处 理数百条数据时能表现出高效率  处理不同数据类型的能力  数字型;二元类型,分类型/ 标称型,序数型, 比例标度 型等等  发现任意形状的能力  基于距离的聚类算法往往发现的是球形的聚类,其实 现实的聚类是任意形状的  用于决定输入参数的领域知识最小化  对于高维数据,参数很难决定,聚类的质量也很难控 制  处理噪声数据的能力  对空缺值、孤立点、数据噪声不敏感 数据挖掘对聚类分析的要求 (2) 对于输入数据的顺序不敏感  同一个数据集合,以不同的次序提交给同 一个算法,应该产生相似的结果  高维度  高维度的数据往往比较稀松,而且高度倾 斜 基于约束的聚类  找到既满足约束条件,又具有良好聚类特 性的数据分组 可解释性和可用性  聚类要和特定的语义解释和应用相联系 聚类的一般步骤  (1)特征选择。必须适当地选择特征,尽可能多的包含任 务相关的信息。在特征中,信息冗余的减少和最小化是主 要目的。  (2)相似性度量。用于定量度量两个特征向量之间如何“ 相似”或“不相似”。一个简单的度量如欧氏距离经常被 用来反应两个特征向量之间的相异性。  (3) 聚类算法。已经选择了合适的相似性度量,这步涉及 到选择特定的聚类算法,用于揭示数据集中的聚类结构。  (4)结果验证。

文档评论(0)

a888118a + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档