第2章模式识别的基本理论(3).pptVIP

  • 10
  • 0
  • 约1.72万字
  • 约 99页
  • 2019-07-27 发布于湖北
  • 举报
* §2.5.3 非监督学习方法中的一些问题 影响聚类结果的因素: 点集的数据构造 点集中样本点的数量 距离度量方法 相似性度量方法 聚类准则 聚类数 样本各分量之间的尺度比例 * 例:各分量不同尺度对聚类的影响 * 2.5.4 不同聚类算法的比较 1、间接的动态聚类算法: 优点: (1)计算效率很高; (2)适用于样本数较少的情况(分级聚类算法) 缺点: 所选定的这种模型常常不能反映数据的概率结构,因此用这些方法得到的结果不能反映数据构造的真实情况。只有通过选择各种各样的核函数以及分析这些核函数所得所到的聚类结果来部分地解决这个问题。 单峰子集类的分离法: 优点:模型能反映数据的概率结构,这些方法得到的结果能反映数据构造的真实情况。 缺点: (1)要对概率密度函数进行估计,计算量大。 (2)在进行概率估计时要选定一些参数,估计的结果受参数选择的影响较大。特别是在有噪声的情况下,具有局部最大值的概率密度函数的峰点都会发生变化,不能正确反映数据中的单峰子集数。 (3)在样本数较少的情况下,无法对概率密度函数进行估计。这种方法完全失去意义。 * * 非监督学习分类 非监督学习方法可以分成两大类 基于概率密度函数估计的直接方法:指设法找到各类别在特征空间的分布参数再进行分类。包括单峰子类的分离方法 等。 基于样本间相似性度量的间接聚类方法:其原理是设法定出不同类别的核心或初始类核,然后依据样本与这些核心之间的相似性度量将样本聚集成不同类别。如:K均值聚类,ISODATA法、分级聚类等 * §2.5.1 单峰子类的分离方法 样本概率密度分布在特征空间的分布是多峰的。 每个单峰区域则被看作不同的决策域。落在同一单峰区域的待分类样本就被划分成同一类,称为单峰子类。 该类算法也很多,典型的有:投影法 投影法 高维空间寻找概率密度的“峰”是困难的,一维空间寻找概率密度的“峰”较容易。 将高维空间样本投影到不同的一维空间ui上,xi=uiTY; 在此一维空间上估计边缘概率密度p(xi) 在此概率密度上寻找各个峰,并确定每个峰的范围(即每个聚类),各个聚类的分解面与该坐标轴ui垂直,交点则是两个峰值之间的最小点。 投影法的主要问题: 一:如何设计合适的坐标系统 (即投影方向) 二、如何设计直方图 (计算边缘概率密度) * 直方图和坐标系统设计 一、设计直方图 1)将数据xi(k)=uiTY(k)按大小排列 2)确定直方图上的单位间隔长度L 3)根据L将数据xi(k)分成不同区间,统计;落在每个区间内的样本数:K。 则 pi (k)=K/N N:总的样本数 二、设计合适的坐标系统 目前还没有合适的准则用于确定坐标系。一种启发式的办法是使待分类的样本在某个坐标轴方向具有最大的分散性,可以采用K-L变换方法。 具体算法:用混合样本协方差矩阵作为K-L变换的产生矩阵,找到其本征值,并按大小排序。对此混合样本来说,对应最大本征值的本征向量,离散程度最大,预期能发现明显的峰值。可作为坐标系统 但是,即使在这些方向的投影,并不能保证分出各个聚类。 * * 可以分出各个聚类 不能分出各个聚类 * 投影法的具体算法 步骤1: 计算样本协方差矩阵具有最大本征值的本征向量Uj,把数据投影到Uj轴上。 步骤2: 用直方图方法求数据的边缘概率密度函数。 步骤3: 在直方图的峰值间求最小值,在这些最小点作垂直于Uj的超平面把数据划分为若干个聚类。 步骤4: 如果在这个轴上没有这样的最小值,则用下一个最大本征值对应的本征向量重复以上过程。 步骤5: 对每个得到的子集(聚类)重复上述过程,直到每个集不能再分(为单峰)为止。 * 2.5.2 类别分离的间接方法 ----聚类方法 聚类方法:不通过对概率密度函数作出估计而直接按样本间的相似性,或彼此间在特征空间中的距离远近进行分类。 如何聚类取决于聚类准则,以使某种聚类准则达到极值为最佳。 两类对数据集进行聚类的方法: 迭代的动态聚类算法 非迭代的分级聚类算法 * 2.5.2.1 动态聚类方法   动态聚类方法的任务是将数据集划分成一定数量的子集,子集数目在理想情况现能体现数据集比较合理的划分。 问题: (1)怎样才能知道该数据集应该划分的子集数目 (2) 如果划分数目已定,则又如何找到最佳划分 由于优化过程是从不甚合理的划分到“最佳”划分,是一个动态的过程,故这种方法称为动态聚类方法。 主要方法:K均值算法 ISODATA算法 * 动态聚类方法3个要点 (1)选定某种距离度量作为样本间的相似性度量;   (2)确定样本合理

文档评论(0)

1亿VIP精品文档

相关文档