- 1、本文档共51页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
机器学习
聚类分析
复旦大学 赵卫东 博士
wdzhao@fudan.edu.cn
章节介绍
• 聚类分析是一种典型的无监督学习,用于对未知类别的样本进行划分,将
它们按照一定的规则划分成若干个类族,把相似(距高相近)的样本聚在同一
个类簇中,把不相似的样本分为不同类簇,从而揭示样本之间内在的性质
以及相互之间的联系规律
• 聚类算法在银行、零售、保险、医学、军事等诸多领域有着广泛的应用
• 本章主要内容包括聚类分析基础、聚类效果评价指标、聚类实现方法,重
点介绍基于划分的方法、基于密度的方法、基于层次的方法等方法,并结
合实例讲解聚类算法的应用
章节结构
• 聚类分析概念
– 聚类方法分类
– 良好聚类算法的特征
• 聚类分析的度量
– 外部指标
– 内部指标
• 基于划分的聚类
– k‐均值算法、k‐medoids算法、k‐prototype算法
• 基于密度聚类
– DBSCAN算法、OPTICS算法、DENCLUE算法
• 基于模型的聚类
– 模糊聚类、Kohonen神经网络聚类
聚类分析概念
• 将未标记的样本自动划分成多个类簇
• 在销售领域,利用聚类分析对客户历史数据进行分析,对客户划分类别,
刻画不同客户群体的特征,从而深入挖掘客户潜在需求,改善服务质量,
增强客户黏性
• 在医学领域,对图像进行分析,挖掘疾病的不同临床特征,辅助医生进行
临床诊断。聚类算法被用于图像分割,把原始图像分成若干个特定的、具
有独特性质的区域并提取目标
• 在生物领域,将聚类算法用于推导动植物分类,以往对动植物的认知往往
是基于外表和习性,应用聚类分析按照功能对基因聚类,获取不同种类物
种之间的基因关联
聚类方法分类
议程
• 基于划分的聚类
• 基于层次的聚类
• 基于密度的聚类
• 基于网格的聚类
• 基于模型的聚类
良好聚类算法的特征
议程
• 良好的可伸缩性
• 处理不同类型数据的能力
• 处理噪声数据的能力
• 对样本顺序的不敏感性
• 约束条件下的表现
• 易解释性和易用性
聚类分析的度量
• 聚类分析的度量指标用于对聚类结果进行评判,分为内部指标和外部指标
两大类
– 外部指标指用事先指定的聚类模型作为参考来评判聚类结果的好坏
– 内部指标是指不借助任何外部参考,只用参与聚类的样本评判聚类结果好坏
• 聚类的目标是得到较高的簇内相似度和较低的簇间相似度,使得簇间的距
离尽可能大,簇内样本与簇中心的距离尽可能小
• 聚类得到的簇可以用聚类中心、簇大小、簇密度和簇描述等来表示
– 聚类中心是一个簇中所有样本点的均值(质心)
– 簇大小表示簇中所含样本的数量
– 簇密度表示簇中样本点的紧密程度
– 簇描述是簇中样本的业务特征
议程外部指标
• 对于含有个样本点的数据集,其中的两个不同样本点 , ,假设是聚
类算法给出的簇划分结果,是外部参考模型给出的簇划分结果。那么对于
样本点, 来说,存在以下四种关系:
– :, 在和中属于相同的簇。
– :, 在中属于相同的簇,在中属于不同的簇。
– :,在中属于不同的簇,在中属于相同的簇。
– :,在和中属于不同的簇。
• 令,,,分别表示,,,所对应的关系数目,由于, 之间的关系
必定存在于四种关系中的一种,且仅能存在一种关系
议程外部指标
• Rand统计量(Rand Statistic )
–
• F值(F‐measure)
文档评论(0)