7、聚类分析.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
7、聚类分析

聚类分析 什么是聚类分析? 聚类(簇):数据对象的集合 在同一个聚类(簇)中的对象彼此相似 不同簇中的对象则相异 聚类分析 将物理或抽象对象的集合分组成为由类似的对象组成的多个 类的过程 聚类是一种无指导的学习:没有预定义的类编号 聚类分析的数据挖掘功能 作为一个独立的工具来获得数据分布的情况 作为其他算法(如:特征和分类)的预处理步骤 聚类分析的典型应用 模式识别 空间数据分析 在GIS系统中,对相似区域进行聚类,产生主题地图 检测空间聚类,并给出它们在空间数据挖掘中的解释 图像处理 经济学(尤其是市场研究) 万维网 对WEB上的文档进行分类 对WEB日志的数据进行聚类,以发现相同的用户访问模式 聚类分析应用实例 市场营销:帮市场分析人员从客户基本库中发现不同 的客户群,从而可以对不同的客户群采用不同的营销 策略 土地使用:在地球监测数据库中,发现相同的土地使 用区域 保险业:发现汽车保险中索赔率较高的客户群 城市规划:根据房子的类型、价值和地理位置对其进 行分组 地震研究:将观测到的震中点沿板块断裂带进行聚 类,得出地震高危区 什么是好的聚类分析? 一个好的聚类分析方法会产生高质量的聚类 高类内相似度 低类间相似度 作为统计学的一个分支,聚类分析的研究主要 是基于距离的聚类;一个高质量的聚类分析结 果,将取决于所使用的聚类方法 聚类方法的所使用的相似性度量和方法的实施 方法发现隐藏模式的能力 数据挖掘对聚类分析的要求 (1) 可扩展性(Scalability) 大多数来自于机器学习和统计学领域的聚类算法在处理数百 条数据时能表现出高效率 处理不同数据类型的能力 数字型;二元类型,分类型/标称型,序数型,比例标度型等 等 发现任意形状的能力 基于距离的聚类算法往往发现的是球形的聚类,其实现实的 聚类是任意形状的 用于决定输入参数的领域知识最小化 对于高维数据,参数很难决定,聚类的质量也很难控制 处理噪声数据的能力 对空缺值、孤立点、数据噪声不敏感 数据挖掘对聚类分析的要求 (2) 对于输入数据的顺序不敏感 同一个数据集合,以不同的次序提交给同一个算 法,应该产生相似的结果 高维度 高维度的数据往往比较稀松,而且高度倾斜 基于约束的聚类 找到既满足约束条件,又具有良好聚类特性的数据 分组 可解释性和可用性 聚类要和特定的语义解释和应用相联系 聚类分析中的数据类型 许多基于内存的聚类 ⎡x ... x ... x ⎤ ⎢ 11 1f 1p ⎥ ... ... ... ... ... 算法采用以下两种数 ⎢ ⎥ 据结构 ⎢x ... x ... x ⎥ ⎢ i1 if ip ⎥ ... ... ... ... ⎢ ... ⎥ 数据矩阵:用p个变量 ⎢ ⎥ 来表示n个对象 x ... x ... x ⎢⎣ n1 nf np ⎦⎥

文档评论(0)

xxj1658888 + 关注
实名认证
文档贡献者

教师资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2024年04月12日上传了教师资格证

1亿VIP精品文档

相关文档