08机器学习-聚类.pptx

下载文档

2
0
约5.54千字
约 42页
2024-11-10 发布于广东
举报
版权申诉
保障服务

08机器学习-聚类.pptx

1、本文档共42页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

2023年04月机器学习-无监督学习（聚类）

“物以内聚”

本章目录无监督学习的动机K均值聚类模型高斯混合模型期望最大化算法极大极小算法基于密度的空间聚类分析层次聚类本章小结

1、无监督学习的动机什么是无监督学习为什么要研究无监督学习呢？对数据进行人工标记难道很难么？我们通常面临大量没有标签的样本，如互联网上的自然语言、语音信号、短视频等；数据进行标记是非常费钱费时的预处理工作相较于监督学习，无监督学习更贴近人的学习方式。人们期望无监督学习能揭示数据内在的特性及规律。

1.无监督学习方法概述?监督学习和无监督学习的区别

1.无监督学习方法概述聚类（Clustering）如何将教室里的学生按爱好、身高划分为5类？降维（DimensionalityReduction）如何将将原高维空间中的数据点映射到低维度的空间中？主要的无监督学习方法

本章目录无监督学习的动机K均值聚类模型高斯混合模型期望最大化算法极大极小算法基于密度的空间聚类分析层次聚类本章小结

本章目录无监督学习的动机K均值聚类模型K均值聚类模型的优化K均值聚类模型的数据预处理K均值聚类的初始化K值大小的选择与模型选择高斯混合模型期望最大化算法极大极小算法基于密度的空间聚类分析层次聚类本章小结

聚类的背景知识--基本思想数据可以分成三个分开的点集(称为簇)，一个能够分出这些点集的算法，就被称为聚类算法。聚类算法示例2.K-means聚类K-means算法是一种无监督学习方法。K-means算法的迭代过程：数据集被预分成若干个不重叠的子簇，使簇的内部点尽可能相似试图保持簇的质心和数据点之间的平方距离之和最小。

2、K均值聚类模型K均值聚类如何把N个样本划分到K个聚类簇中？均值聚类假设：同一类簇中的样本相似度高而不同簇中的样本相似度低。目标函数如下：对聚类结构的不同理解定义出不同的距离函数。欧式距离：聚类算法示例我们可以采用坐标下降法对归属矩阵R和簇中心进行优化。更当更新完簇中心向量后，并将样本归类到距离最小的簇中：

2.K-means聚类1.选择K个点作为初始质心。2.将每个点指派到最近的质心，形成K个簇。3.对于上一步聚类的结果，进行平均计算，得出该簇的新的聚类中心。4.重复上述两步/直到迭代结束：质心不发生变化。

3、K均值聚类模型的数据预处理在进行K均值聚类时，初始数据的质量对聚类结果有影响吗？如何处理初始数据进行归一化处理？聚类公式中的是对多维正态分布中协方差的简化表达。多维正态分布的表达式为：将协方差矩阵变为单位矩阵时，多维正态分布就转变为：

3、K均值聚类模型的数据预处理不同协方差产生不同的数据分布假设上述公式说明均值聚类的每个簇都服从等协方差的高斯分布K均值算法需要对样本的各个维度做归一化处理以避免各个维度的方差相差过大。

3、K均值聚类模型的数据预处理数据预处理的一些其他方法异常值处理：识别和处理异常值，以减少异常值对聚类中心的影响。特征选择：通过分析特征的方差、相关性等指标，选择对聚类任务具有代表性的特征子集。

K均值聚类的初始化目标函数不是凸函数，如何进行簇中心向量的初始化？观察到最优的簇中心之间互相远离。让这些初始选择的簇中心之间应该尽量地相互远离。K均值++算法的思想。随机选取样本点：从给定的数据集中随机选择k个样本点，作为初始的簇中心。计算样本与簇中心的距离：对数据集中的每个样本，计算其与所有簇中心的距离。概率选择最大距离样本：在计算得到的每个样本与簇中心的距离中，以一定的概率选择距离最大的样本点作为簇的初始中心。循环迭代：重复执行步骤2和步骤3，直到为每个簇选择出初始中心。算法：

K值大小的选择与模型选择K值大小如何确

08机器学习-聚类.pptx 原文免费试下载