- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第六章 聚类分析
第六章 聚类分析
第六章 聚类分析
• 6.1 基本概念
• 6.2 聚类分析中的数据类型
• 6.3 主要聚类分析方法
6.1 基本概念——什么是聚类分析?
6.1 基本概念——什么是聚类分析?
• 簇(Cluster ):数据对象的集合
– 在同一个类中,对象之间具有相似性;
– 不同类的对象之间是相异的。
• 聚类分析
– 把一个给定的数据对象集合分成不同的簇;
• 聚类是一种无监督分类法: 没有预先指定的类别;
• 典型的应用
– 作为一个独立的分析工具,用于了解数据的分布;
– 作为其它算法的一个数据预处理步骤
聚类的常规应用
聚类的常规应用
• 模式识别
• 空间数据分析
– 在GIS中,通过聚类发现特征空间来建立主题索
引;
– 在空间数据挖掘中,检测并解释空间中的簇;
• 图象处理
• 经济学(尤其是市场研究方面)
• WWW
– 文档分类
– 分析WEB 日志数据来发现相似的访问模式
应用聚类分析的例子
应用聚类分析的例子
• 市场销售: 帮助市场人员发现客户中的不同群体,
然后用这些知识来开展一个目标明确的市场计划;
• 土地使用: 在一个陆地观察数据库中标识那些土地
使用相似的地区;
• 保险: 对购买了汽车保险的客户,标识那些有较高
平均赔偿成本的客户;
• 城市规划: 根据类型、价格、地理位置等来划分不
同类型的住宅;
• 地震研究: 根据地质断层的特点把已观察到的地震
中心分成不同的类;
什么是一个好的聚类方法?
什么是一个好的聚类方法?
• 一个好的聚类方法要能产生高质量的聚类结
果——簇,这些簇要具备以下两个特点:
– 高的簇内相似性
– 低的簇间相似性
数据挖掘对聚类分析的要求
数据挖掘对聚类分析的要求
• 可伸缩性
• 能够处理不同类型的属性
• 能发现任意形状的簇
• 在决定输入参数的时候,尽量不需要特定的领域知识;
• 能够处理噪声和异常
• 对输入数据对象的顺序不敏感
• 能处理高维数据
• 能产生一个好的、能满足用户指定约束的聚类结果
• 结果是可解释的、可理解的和可用的
6.2 数据类型
6.2 数据类型
• 表示数据的两种结构 x ... x ... x
11 1f 1p
1)数据矩阵 ... ... ... ... ...
x ... x ... x
i1 if ip
... ... ... ... ...
x n1 ... x nf ... x np
2 )差异度矩阵 0
文档评论(0)