中科大数据挖掘 聚类.pdf

  1. 1、本文档共50页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中科大数据挖掘 聚类

数据挖掘 聚类 December 29, 2015 Outline 1 从例子理解聚类概念 2 划分方法 3 层次方法 4 基于密度的方法 5 聚类评估 1 从例子理解聚类概念 2 划分方法 3 层次方法 4 基于密度的方法 5 聚类评估 从例子理解聚类概念 把卡通人物分类 不同的分类标准将会得到不同的结果:(组织形式/性别) 人群分类 例子 企业内部,员工去哪个部 门?参加那个项目? 客户分类 问题 如果用分类技术,需要大量“标签”监督信号 标签的给出,需要专家知识; 可能需要的标签很多,成本问题 理解聚类 例子 给定一张表,表示类别的列y ,值全缺失; 请补充给定行的y 值。 度量相似! 存在问题 填写y 值的方法:y 的取值域及其映射方法? 如何评价y 值? 没有损失函数! 转化为新的优化问题 y 值相同的行,被认为是“相似的”,形成一个cluster/类 y 值不同的行,被认为是“差距大的”,分属于不同的cluster/类 新优化问题:cluster 内的数据相似,cluster 之间的数据“差距大”。 相似性度量 相似性度量具有的主观性 数据的不相似性/距离 欧式距离 Minkovski 距离 相关系数 . . . 实践中,用距离定义不相似性 给定两个数据对象 O , O ,判断其相似性 1 2 通常,定义一个实值 函数D O , O 来计算数据对象间的“差异”/ 1 2 “距离” cluster 的距离 cluster 内的数据相似 给定两个数据的距离计算公式 如何计算集合内多个数据的距离,即:得到一个实值,描述cluster 内的相似性? 方法1 :所有两两距离的均值 方法2 :选择某个“特殊点”,计算所有数据和特殊点的距离均值,特殊点可以是某个实际数 据,也可以是虚拟数据的“中心”点 cluster 之间的数据“差距大” 给定两个数据的距离计算公式 如何计算两个数据集合的距离,即:得到一个实值,描述不同cluster 之间的相似性/距离? 方法1 :不同集合内的两个数据的距离最小值为集合距离; 方法2 :不同集合内的两个数据的距离最大值为集合距离; 方法3 :不同集合内的所有两个数据的距离均值为集合距离; . . . 1 从例子理解聚类概念 2 划分方法

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档