机器学习 - 聚类分析.pdf

  1. 1、本文档共51页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
机器学习 聚类分析 复旦大学 赵卫东 博士 wdzhao@fudan.edu.cn 章节介绍 • 聚类分析是一种典型的无监督学习,用于对未知类别的样本进行划分,将 它们按照一定的规则划分成若干个类族,把相似(距高相近)的样本聚在同一 个类簇中,把不相似的样本分为不同类簇,从而揭示样本之间内在的性质 以及相互之间的联系规律 • 聚类算法在银行、零售、保险、医学、军事等诸多领域有着广泛的应用 • 本章主要内容包括聚类分析基础、聚类效果评价指标、聚类实现方法,重 点介绍基于划分的方法、基于密度的方法、基于层次的方法等方法,并结 合实例讲解聚类算法的应用 章节结构 • 聚类分析概念 – 聚类方法分类 – 良好聚类算法的特征 • 聚类分析的度量 – 外部指标 – 内部指标 • 基于划分的聚类 – k‐均值算法、k‐medoids算法、k‐prototype算法 • 基于密度聚类 – DBSCAN算法、OPTICS算法、DENCLUE算法 • 基于模型的聚类 – 模糊聚类、Kohonen神经网络聚类 聚类分析概念 • 将未标记的样本自动划分成多个类簇 • 在销售领域,利用聚类分析对客户历史数据进行分析,对客户划分类别, 刻画不同客户群体的特征,从而深入挖掘客户潜在需求,改善服务质量, 增强客户黏性 • 在医学领域,对图像进行分析,挖掘疾病的不同临床特征,辅助医生进行 临床诊断。聚类算法被用于图像分割,把原始图像分成若干个特定的、具 有独特性质的区域并提取目标 • 在生物领域,将聚类算法用于推导动植物分类,以往对动植物的认知往往 是基于外表和习性,应用聚类分析按照功能对基因聚类,获取不同种类物 种之间的基因关联 聚类方法分类 议程 • 基于划分的聚类 • 基于层次的聚类 • 基于密度的聚类 • 基于网格的聚类 • 基于模型的聚类 良好聚类算法的特征 议程 • 良好的可伸缩性 • 处理不同类型数据的能力 • 处理噪声数据的能力 • 对样本顺序的不敏感性 • 约束条件下的表现 • 易解释性和易用性 聚类分析的度量 • 聚类分析的度量指标用于对聚类结果进行评判,分为内部指标和外部指标 两大类 – 外部指标指用事先指定的聚类模型作为参考来评判聚类结果的好坏 – 内部指标是指不借助任何外部参考,只用参与聚类的样本评判聚类结果好坏 • 聚类的目标是得到较高的簇内相似度和较低的簇间相似度,使得簇间的距 离尽可能大,簇内样本与簇中心的距离尽可能小 • 聚类得到的簇可以用聚类中心、簇大小、簇密度和簇描述等来表示 – 聚类中心是一个簇中所有样本点的均值(质心) – 簇大小表示簇中所含样本的数量 – 簇密度表示簇中样本点的紧密程度 – 簇描述是簇中样本的业务特征 议程外部指标 • 对于含有个样本点的数据集,其中的两个不同样本点 , ,假设是聚 类算法给出的簇划分结果,是外部参考模型给出的簇划分结果。那么对于 样本点, 来说,存在以下四种关系: – :, 在和中属于相同的簇。 – :, 在中属于相同的簇,在中属于不同的簇。 – :,在中属于不同的簇,在中属于相同的簇。 – :,在和中属于不同的簇。 • 令,,,分别表示,,,所对应的关系数目,由于, 之间的关系 必定存在于四种关系中的一种,且仅能存在一种关系 议程外部指标 • Rand统计量(Rand Statistic ) – • F值(F‐measure)

文档评论(0)

wendangchuan + 关注
实名认证
内容提供者

高级工程师持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年09月22日上传了高级工程师

1亿VIP精品文档

相关文档