- 1、本文档共50页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中科大数据挖掘 聚类
数据挖掘
聚类
December 29, 2015
Outline
1 从例子理解聚类概念
2 划分方法
3 层次方法
4 基于密度的方法
5 聚类评估
1 从例子理解聚类概念
2 划分方法
3 层次方法
4 基于密度的方法
5 聚类评估
从例子理解聚类概念
把卡通人物分类
不同的分类标准将会得到不同的结果:(组织形式/性别)
人群分类
例子
企业内部,员工去哪个部
门?参加那个项目?
客户分类
问题
如果用分类技术,需要大量“标签”监督信号
标签的给出,需要专家知识;
可能需要的标签很多,成本问题
理解聚类
例子
给定一张表,表示类别的列y ,值全缺失;
请补充给定行的y 值。 度量相似!
存在问题
填写y 值的方法:y 的取值域及其映射方法?
如何评价y 值? 没有损失函数!
转化为新的优化问题
y 值相同的行,被认为是“相似的”,形成一个cluster/类
y 值不同的行,被认为是“差距大的”,分属于不同的cluster/类
新优化问题:cluster 内的数据相似,cluster 之间的数据“差距大”。
相似性度量
相似性度量具有的主观性
数据的不相似性/距离
欧式距离
Minkovski 距离
相关系数
. . .
实践中,用距离定义不相似性
给定两个数据对象 O , O ,判断其相似性
1 2
通常,定义一个实值 函数D O , O 来计算数据对象间的“差异”/
1 2
“距离”
cluster 的距离
cluster 内的数据相似
给定两个数据的距离计算公式
如何计算集合内多个数据的距离,即:得到一个实值,描述cluster 内的相似性?
方法1 :所有两两距离的均值
方法2 :选择某个“特殊点”,计算所有数据和特殊点的距离均值,特殊点可以是某个实际数
据,也可以是虚拟数据的“中心”点
cluster 之间的数据“差距大”
给定两个数据的距离计算公式
如何计算两个数据集合的距离,即:得到一个实值,描述不同cluster 之间的相似性/距离?
方法1 :不同集合内的两个数据的距离最小值为集合距离;
方法2 :不同集合内的两个数据的距离最大值为集合距离;
方法3 :不同集合内的所有两个数据的距离均值为集合距离;
. . .
1 从例子理解聚类概念
2 划分方法
文档评论(0)