配套课件 机器学习基础教程--姚舜才.ppt

6.2.3 局部线性嵌入(LLE:Locally Linear Embedding) 在处理非线性问题时,常常采用分段线性化的方法来进行处理:将全局的非线性情况逐段进行分割,然后在局部小范围内进行线性化处理。局部线性嵌入的降维方法与这种分段小范围线性化的思想很类似。这种方法将流形上的每个局部小范围进行线性化近似,并使用大量数据来对其进行描述;这样一来,每个数据点都可以用其近邻数据的线性加权和(线性组合)来表示。距离该数据点远的数据样本对于局部的线性关系并没有影响。在高维空间的线性关系映射到低维空间保持不变,仅仅是实现了维数的降低。 首先要确定局部邻域的大小。在原来高维数据空间中的点xi,与该点的相邻的k个点的近邻关系,可以使用最小二乘法获得其重构的权重系数wij。可将均方差作为性能指标函数,有: 6.2.3 局部线性嵌入(LLE:Locally Linear Embedding) 式中,n为高维空间中的数据点数,k为高维空间中该点的邻接点。对权重系数wij进行归一化,并作为约束条件。在约束条件的约束下,对的性能指标进行优化,求取权重的表达。将式进行变形,有: 根据范数的等价性,可以将上式中的范数看作2-范数。为了计算方便,可以将式写作向量/矩阵形式,有: 式中, 。在权重系数的约束条件下,并使用拉格朗日乘子法。可以求权重极值,有: 6.2.3 局部线性嵌入(LLE:Locally Linear Embedding) 求得, 。代入即可得到优化指标函数的值。 综上所述,局部线性嵌入学习的流程如下: Step1:输入数据集样本,确定邻接数目,计算和原始数据集样本点最靠近的k个最近邻接点; Step2:得到局部方差矩阵,并利用式(6.82)求出其权重系数; Step3:求出最小特征值所对应的特征向量 Step4:由相应的特征向量构建在低位空间的样本数据。 6.2.3 局部线性嵌入(LLE:Locally Linear Embedding) 直观得知,有n个邻接点可以生成n-1维空间,因此可以利用线性局部嵌入进行降维。n的选择会影响到学习的效果:一方面,如果n的值太小,可能会使邻接图不再连通;另一方面,如果n选择的值太大,则局部线性的条件就不成立,线性嵌入与原数据集相比就没有足够的相似度。局部线性嵌入是小范围、局部的线性,全局是非线性的方法处理高维的数据,保证了在原始数据集的基本结构。 与等距映射(ISOMAP)相比,局部线性嵌入保持了数据的局部结构。在降维学习过程中,首先考虑局部近邻点及邻域的信息;而等距映射则是保持了原数据集中各数据点之间的测地线距离关系映射到低位空间中保持不变,等距映射更像是一种全局算法。 6.3 多类数据特征选择与提取 多类数据特征选择与提取也是一种降维学习,但其本身也带有自身的特点。除了降维这个效果之外,主要是需要对于多类的数据提取其特征,这些特征既包含从原来的数据集中筛选其固有特征,也包含根据数据集自身的特点归纳总结出“新”的特征(这一点上与因子分析有些类似)。特征性提取的算法主要通过对多类数据进行适当的变换或映射。而特征选择是要从一组特征中,选择最能够代表原来数据集中的主要、有效特征。 对于特征的区分,通常的做法是考量其“距离”,根据其相距的“远近”来进行分析。但是在实际的工作中,常常存在对特征识别的错误,也就是错误的分类,因此需要对出现错误分类的概率进行评价,这就涉及到了根据散度准则的特征提取,根据熵最小化准则的特征提取等等。 6.3 多类数据特征选择与提取 一、根据距离度量的特征提取 根据距离度量的特征提取方法在很大程度上与根据距离度量的分类方法类似,前已述及,这里不再重复。 二、根据散度准则的特征提取 对于多类数据特征提取与选择可以先简化为两类数据的情况。对于两类数据,首先设两类数据服从正态分布,其概率密度函数为p(X1,PX2),期望分别为: ;方差为 。可得到其对数似然比为: 定义其类间的散度矩阵为: 6.3 多类数据特征选择与提取 在两类数据的均值相等、方差不等的情况下,有: 式中, 为 的特征值矩阵。然后按照下式排序: 可以将前k个特征向量作为特征提取的依据。 对于多重分类的情况,可以先求出一个候选集合,然后根据搜索算法逐渐减多重的情况一一求出。 6.3 多类数据特征选择与提取 三、根据熵最小化准则的特征提取 “熵”在热力学和信息论中都是很重要的一个概念,用来表示混乱或者不确定性的程度。在特征提取的范畴内也用来进行衡量数据的特征差别。设给定的标准分布为 ,而某多维数据集的概率分布

文档评论(0)

1亿VIP精品文档

相关文档