- 1、本文档共40页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘与商务智能
范勤勤
物流研究中心
第十章 聚类分析
聚类分析
聚类分析:基本概念
4
聚类分析:应用示例
5
数据挖掘对聚类的典型要求
6
可以用于比较聚类方法的诸方面
7
基本聚类方法概述
8
9
基本聚类方法概述
方法
一般特点
划分方法
发现球形互斥的簇
基于距离
可以用均值或中心点等代表簇中心
对中小规模数据集有效
层次方法
聚类是一个层次分解(即多层)
不能纠正错误的合并或划分
可以集成其他技术,如微聚类或考虑对象“连接”
基于密度
的方法
可以发现任意形状的簇
簇是对象空间中被低密度区域分隔的稠密区域
簇密度:每个点的“邻域”内必须具有最少个数的点
可能过滤离群点
划分方法
划分方法
11
K-均值:一种基于形心的技术
12
K-均值:一种基于形心的技术
13
K-均值:例子-步骤1
14
随机选择3个簇中心
K-均值:例子-步骤2
15
分配每个点到最近的簇中心
K-均值:例子-步骤3
16
移动每个簇中心到每个簇的平均位置
K-均值:例子-步骤4
17
把对象重新分布到离簇中心最近的簇中
K-均值:例子-步骤4…
18
A: three points with animation
K-均值:例子-步骤4b
19
重新计算簇的均值
K-均值:例子-步骤5
20
把簇的中心移到簇的均值
K-均值:缺点
21
是局部最优,不是全局最优
要求用户必须事先给出要生成的簇的数目,选择初始划分的最佳方向、更新分区和停止准则
不适合发现大小很不相同的簇或具有凹状的簇
算法只有在簇的平均值被定义的情况下才能使用,这不适合涉及有类属性的数据
对噪音和异常点非常敏感
孤立点(极大值)的存在,会大幅度扭曲数据的分布
K-中心点:一种基于代表对象的技术
22
K-中心点:一种基于代表对象的技术
23
0
1
2
3
4
5
6
7
8
9
10
0
1
2
3
4
5
6
7
8
9
10
K=2
任意选取 k 个对象作为初始 medoids
将其余对象分配到最近的medoids所代表的类
随机选取一非中心对象,Oramdom
计算交换代价
如果聚类质量被提高,则代替原medoid
Do loop
Until no change
层次方法
凝聚的与分裂的层次聚类
25
层次方法
26
算法方法距离度量
27
BIRCH:使用聚类特征树的多阶段聚类
28
29
CF树结构
Chameleon:使用动态建模的多阶段层次聚类
30
概率层次聚类
31
基于密度的方法
基于密度的方法
33
DBSCAN:一种基于高密度连通区域的基于密度的聚类
34
密度相连
DBSCAN:一种基于高密度连通区域的基于密度的聚类
35
OPTICS:通过点排序识别聚类结构
36
OPTICS:通过点排序识别聚类结构
37
例: 设=6(mm), MinPts=5.
p的核心距离是p与第四个最近的数据对象之间的距离’。
q1关于p的可达距离是p的核心距离(即’=3mm), 因为它比从p到q1的欧几里得距离要大。
q2关于p的可达距离是从p到q2的欧几里得距离, 它大于p的核心距离 。
38
OPTICS中的簇次序
对象的簇排序
DENCLUE:基于密度分布函数的聚类
39
谢
谢
关
注
欢
迎
指
导
文档评论(0)