- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
机器学习
机器学习
第4章聚类分析
第4章聚类分析
章节介绍
• 聚类分析是一种典型地无监督学习, 用于对未知类别地样本进行划分,将它
们按照一定地规则划分成若干个类族,把相似(距高相近)地样本聚在同一个
类簇中, 把不相似地样本分为不同类簇,从而揭示样本之间内在地性质以及
相互之间地联系规律
• 聚类算法在银行,零售,保险,医学,军事等诸多领域有着广泛地应用
• 本章主要内容包括聚类分析基础,聚类效果评价指标,聚类实现方法,重点介
绍基于划分地方法,基于密度地方法,基于层次地方法,基于网格地方法与基
于模型地方法,并结合实例讲解聚类算法地应用
章节结构
• 聚类分析概念
• 聚类方法分类
• 良好聚类算法地特征
• 聚类分析地度量
• 外部指标
• 内部指标
• 基于划分地聚类
• k-均值算法
• k-medoids算法
• k-prototype算法
• 基于密度聚类
• DBSCAN算法
章节结构
• 基于层次地聚类
• BIRCH聚类
• CURE算法
• 基于网格地聚类
• 基于模型地聚类
• 概率模型聚类
• 模糊聚类
• Kohonen神经网络聚类
聚类分析概念
• 将未标记地样本自动划分成多个类簇
• 在销售领域,利用聚类分析对客户历史数据进行分析,对客户划分类别,刻画
不同客户群体地特征,从而深入挖掘客户潜在需求,改善服务质量,增强客户
黏性
• 在医学领域,对图像进行分析,挖掘疾病地不同临床特征,辅助医生进行临床
诊断。聚类算法被用于图像分割,把原始图像分成若干个特定地,具有独特
性质地区域并提取目地
• 在生物领域,将聚类算法用于推导动植物分类,以往对动植物地认知往往是
基于外表与习性,应用聚类分析按照功能对基因聚类,获取不同种类物种之
间地基因关联
聚类方法分类
议程
• 基于划分地聚类
• 基于层次地聚类
• 基于密度地聚类
• 基于网格地聚类
• 基于模型地聚类
良好聚类算法地特征
议程
• 良好地可伸缩性
• 处理不同类型数据地能力
• 处理噪声数据地能力
• 对样本顺序地不敏感性
• 约束条件下地表现
• 易解释性与易用性
聚类分析地度量
• 聚类分析地度量指标用于对聚类结果进行评判,分为内部指标与外部指标两
大类
• 外部指标指用事先指定地聚类模型作为参考来评判聚类结果地好坏
• 内部指标是指不借助任何外部参考,只用参与聚类地样本评判聚类结果好坏
• 聚类地目地是得到较高地簇内相似度与较低地簇间相似度,使得簇间地距离
尽可能大,簇内样本与簇中心地距离尽可能小
• 聚类得到地簇可以用聚类中心,簇大小,簇密度与簇描述等来表示
• 聚类中心是一个簇中所有样本点地均值(质心)
• 簇大小表示簇中所含样本地数量
• 簇密度表示簇中样本点地紧密程度
• 簇描述是簇中样本地业务特征
议程 外部指标
• 对于含有个样本点地数据集,其中地两个不同样本点,假设是聚类算法给出
地簇划分结 ,是外部参考模型给出地簇划分结果。那么对于样本点来说,
存在以下四种关系:
• :在与中属于相同地簇。
• :在中属于相同地簇,在中属于不同地簇。
• :在中属于不同地簇,在中属于相同地簇。
• :在与中属于不同地簇。
• 令分别表示所对应地关系数目,由于之间地关系必定存在于四种关系中地一
种,且仅能存在一种关系,因此有:
议程 外部指标
• Rand统计量(Rand Statistic)
• F值(F-measure)
• 表示准确率,表示召回率。
• 是参数, 当时,就是最常见地
议程 外部指标
• Jaccard系数(Jaccard Coefficient )
• FM指数(Fowlkes and Mallows Index)
• 以上四个度量指标地值越大,表明聚类结果与参考模型直接地划分结果越吻
合,聚类结果就越好
议程 内部指标
• 内部指标不借助外部参考模型,利用样本点与聚类中心之间地距离来衡量聚
类结果地好坏。在聚类分析中,对于两个维样本与
• 常用地距离度量有欧式距离,曼哈顿距离,切比雪夫距离与明可夫斯基距离
等
• 欧式距离(Euclidean Distance)是计算欧式空间中两点之间地距离,是最容
原创力文档


文档评论(0)