6.2.3 局部线性嵌入(LLE:Locally Linear Embedding) 在处理非线性问题时,常常采用分段线性化的方法来进行处理:将全局的非线性情况逐段进行分割,然后在局部小范围内进行线性化处理。局部线性嵌入的降维方法与这种分段小范围线性化的思想很类似。这种方法将流形上的每个局部小范围进行线性化近似,并使用大量数据来对其进行描述;这样一来,每个数据点都可以用其近邻数据的线性加权和(线性组合)来表示。距离该数据点远的数据样本对于局部的线性关系并没有影响。在高维空间的线性关系映射到低维空间保持不变,仅仅是实现了维数的降低。 首先要确定局部邻域的大小。在原来高维数据空间中的点xi,与该点的相邻的k个点的近邻关系,可以使用最小二乘法获得其重构的权重系数wij。可将均方差作为性能指标函数,有: 6.2.3 局部线性嵌入(LLE:Locally Linear Embedding) 式中,n为高维空间中的数据点数,k为高维空间中该点的邻接点。对权重系数wij进行归一化,并作为约束条件。在约束条件的约束下,对的性能指标进行优化,求取权重的表达。将式进行变形,有: 根据范数的等价性,可以将上式中的范数看作2-范数。为了计算方便,可以将式写作向量/矩阵形式,有: 式中, 。在权重系数的约束条件下,并使用拉格朗日乘子法。可以求权重极值,有: 6.2.3 局部线性嵌入(LLE:Locally Linear Embedding) 求得, 。代入即可得到优化指标函数的值。 综上所述,局部线性嵌入学习的流程如下: Step1:输入数据集样本,确定邻接数目,计算和原始数据集样本点最靠近的k个最近邻接点; Step2:得到局部方差矩阵,并利用式(6.82)求出其权重系数; Step3:求出最小特征值所对应的特征向量 Step4:由相应的特征向量构建在低位空间的样本数据。 6.2.3 局部线性嵌入(LLE:Locally Linear Embedding) 直观得知,有n个邻接点可以生成n-1维空间,因此可以利用线性局部嵌入进行降维。n的选择会影响到学习的效果:一方面,如果n的值太小,可能会使邻接图不再连通;另一方面,如果n选择的值太大,则局部线性的条件就不成立,线性嵌入与原数据集相比就没有足够的相似度。局部线性嵌入是小范围、局部的线性,全局是非线性的方法处理高维的数据,保证了在原始数据集的基本结构。 与等距映射(ISOMAP)相比,局部线性嵌入保持了数据的局部结构。在降维学习过程中,首先考虑局部近邻点及邻域的信息;而等距映射则是保持了原数据集中各数据点之间的测地线距离关系映射到低位空间中保持不变,等距映射更像是一种全局算法。 6.3 多类数据特征选择与提取 多类数据特征选择与提取也是一种降维学习,但其本身也带有自身的特点。除了降维这个效果之外,主要是需要对于多类的数据提取其特征,这些特征既包含从原来的数据集中筛选其固有特征,也包含根据数据集自身的特点归纳总结出“新”的特征(这一点上与因子分析有些类似)。特征性提取的算法主要通过对多类数据进行适当的变换或映射。而特征选择是要从一组特征中,选择最能够代表原来数据集中的主要、有效特征。 对于特征的区分,通常的做法是考量其“距离”,根据其相距的“远近”来进行分析。但是在实际的工作中,常常存在对特征识别的错误,也就是错误的分类,因此需要对出现错误分类的概率进行评价,这就涉及到了根据散度准则的特征提取,根据熵最小化准则的特征提取等等。 6.3 多类数据特征选择与提取 一、根据距离度量的特征提取 根据距离度量的特征提取方法在很大程度上与根据距离度量的分类方法类似,前已述及,这里不再重复。 二、根据散度准则的特征提取 对于多类数据特征提取与选择可以先简化为两类数据的情况。对于两类数据,首先设两类数据服从正态分布,其概率密度函数为p(X1,PX2),期望分别为: ;方差为 。可得到其对数似然比为: 定义其类间的散度矩阵为: 6.3 多类数据特征选择与提取 在两类数据的均值相等、方差不等的情况下,有: 式中, 为 的特征值矩阵。然后按照下式排序: 可以将前k个特征向量作为特征提取的依据。 对于多重分类的情况,可以先求出一个候选集合,然后根据搜索算法逐渐减多重的情况一一求出。 6.3 多类数据特征选择与提取 三、根据熵最小化准则的特征提取 “熵”在热力学和信息论中都是很重要的一个概念,用来表示混乱或者不确定性的程度。在特征提取的范畴内也用来进行衡量数据的特征差别。设给定的标准分布为 ,而某多维数据集的概率分布
您可能关注的文档
- 配套课件 《电子商务概论》(第二版)--杜江平.ppt
- 配套课件 EDA技术案例教程--史小波.ppt
- 配套课件 Photoshop图像处理--肖清.ppt
- 配套课件 PLC技术与变频器技术应用项目教程(三菱系列)--刘伦富.ppt
- 配套课件 保险公司经营管理(第四版)--魏巧琴.ppt
- 配套课件 保险投资学--魏巧琴.ppt
- 配套课件 财政学教程(第三版).ppt
- 配套课件 成本会计实务.ppt
- 配套课件 城市规划.ppt
- 配套课件 出入境货物报检业务操作.ppt
- 伟明环保-市场前景及投资研究报告-境内业务稳健运行,印尼市场贡献边际增量.pdf
- 桂东县法院系统招聘考试真题2025.pdf
- 贵州省黔南布依族2026年中考三模物理试题及答案.pdf
- 贵州省黔南州2026年中考语文二模试卷附答案.pdf
- 贵州省铜仁市2026年中考语文二模试卷附答案.pdf
- 2026上半年安徽事业单位联考合肥市庐江县招聘36人备考题库及一套完整答案详解.docx
- 贵州省毕节市2026年中考语文一模试卷附答案.pdf
- 贵州省贵阳市南明区2026年中考语文一模试卷附答案.pdf
- 2026上半年安徽事业单位联考合肥市庐江县招聘36人备考题库及一套参考答案详解.docx
- 贵州省贵阳市白云区2026年中考二模物理试题附答案.pdf
最近下载
- PPAP培训课件(详细).pdf VIP
- 2023山东传媒职业学院教师招聘考试笔试试题2.pdf VIP
- 2025年数据中心五年建设:AI算力与投资方向报告.docx
- WebGIS原理及开发—基于开源框架的WebGIS技术493.pptx VIP
- 鹤煤三矿关于成立原煤车间智能选矸系统升级改造项目领导小组的通知.doc VIP
- 2023年山东传媒职业学院教师招聘考试笔试试题及答案解析.docx VIP
- 北师大版6六年级数学上册全套计算题专项练习16页.pdf VIP
- 2025中考语文名著阅读专题06 《昆虫记》真题练习(单一题)(学生版+解析版).docx
- Q_26 4003HJTG001-2019无心车床技术条件.pdf
- LC-2030C型高效液相色谱仪(设备编号)再确认方案 .pdf VIP
原创力文档

文档评论(0)