机器学习之聚类分析.pptx

聚类分析;目录;概述;从给定的训练数据集中学习出一个函数(模型参数),当新的数据到来时,可以根据这个函数预测结果 监督学习就是最常见的分类问题 监督学习的目标往往是让计算机去学习我们已经创建好的分类模型 最典型的算法是KNN和SVM;输入数据没有标记,也没有确定的结果 样本数据类别未知,需要根据样本间的相似性对样本集进行聚类 非监督学习目标不是告诉计算机怎么做,而是让计算机自己去学习怎样做;无监督学习的方法分为两大类: 基于概率密度函数估计的直接方法 基于样本间相似性度量的简介聚类方法:设法定出不同类别的核心或初始内核,然后依据样本与核心之间的相似性度量将样本聚集成不同的类别;“物以聚类,人以群分” 所谓聚类,就是将相似的事物聚集在一 起,而将不相似的事物划分到不同的类别的过程,是数据分析之中十分重要的一种手段。 ;在图像分析中,人们希望将图像分割成具有类似性质的区域 在文本处理中,人们希望发现具有相同主题的文本子集 在顾客行为分析中,人们希望发现消费方式类似的顾客群,以便制订有针对性的客户管理方式和提高营销效率 这些情况都可以在适当的条件下归为聚类分析 ;聚类就是将数据集中的样本划分为若干个通常不相交的子集,每个子集成为一个“簇”(Cluster)。;聚类的相似性度量 ;聚类的相似性度量 ;聚类的相似性度量 ;聚类的相似性度量 ; 要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。 ;层次聚类;层次聚类;层次聚类——最短距离法; 将类Gp与Gq合并为Gr,则Gr与任意一类Gk间的距离为: ;最短距离法进行聚类分析的步骤如下: (1)定义样品之间距离,计算样品的两两距离,得一距离阵记为D(0) ,开始每个样品自成一类,显然这时Dij =dij。 (2)找出距离最小元素,设为Dpq,则将Gp和Gq合并成一个新类,记为Gr,即Gr = {Gp,Gq}。 (3)计算新类与其它类的距离??? (4)重复(2)、(3)两步,直到所有元素。并成一类为止。如果某一步距离最小的元素不止一个,则对应这些最小元素的类可以同时合并。 ;层次聚类——最大距离法;层次聚类——最大距离法;层次聚类——中间距离法;层次聚类;层次聚类;层次聚类;层次聚类;原型聚类 (K-means、高斯混合聚类) 密度聚类(DBSCAN) 层次聚类; K均值法是麦奎因(MacQueen)1967提出的基本思想是将每一个样本分配给最近中心(均值)的类中,具体的算法至少包括以下四个步骤: (1)从n个数据对象随机选取k个对象作为初始簇中心。 (2)计算每个簇的平均值,并用该平均值代表相应的簇。 (3)计算每个对象与这些中心对象的距离,并根据最小距离重新对相应对象进行划分。 (4)转步骤(2),重新计算每个(自变化)簇的平均值。这个过程不断重复直到某个准则函数不再明显变化或者聚类的对象不再变化为止。;K均值聚类(K-means);K均值聚类(K-means) ;K均值聚类(K-means);K均值聚类(K-means);K均值聚类(K-means);K-means聚类的应用: 图像分割:SLIC算法 文本分析 ;基于密度的聚类; DBSCAN是基于一组邻域来描述样本集的紧密程度的,参数(ε, MinPts)用来描述邻域的样本分布紧密程度。ε描述某一样本的邻域距离阈值,MinPts描述某一样本的距离为ε的邻域中样本个数的阈值。 假设我的样本集是D=(x1,x2,...,xm)则DBSCAN具体: 1) ε-邻域:对于xj∈D,其ε-邻域包含样本集D中与xj的距离不大于ε的子样本集,即Nε(xj)={xi∈D|distance(xi,xj)≤ε} 2) 核心对象:对于任一样本xj∈D,如果其ε-邻域对应的Nε(xj)至少包含MinPts个样本,即如果|N?(xj)|≥MinPts,则xj是核心对象。 ;3)密度直达:如果xi位于xj的ε-邻域中,且xj是核心对象,则称xi由xj密度直达。注意反之不一定成立, 除非且xi也是核心对象。  4)密度可达:对于xi和xj,如果存在样本序列p1,p2,...,pT满足p1=xi,pT=xj且pt+1由pt密度直达,则称xj由xi密度可达。密度可达满足传递性。此时序列中的传递样本p1,p2,...,p

文档评论(0)

1亿VIP精品文档

相关文档