高维数据低维表示综述 (2).docVIP

  • 20
  • 0
  • 约1.82万字
  • 约 30页
  • 2017-06-15 发布于北京
  • 举报
高维数据的低维表示综述 一、研究背景 降维的基本原理是把数据样本从高维输入空通过线性或非线性映射投影到一个低维空间,从而找出隐藏在高维观测数据中有意义的低维结构。(8) 之所以能对高维数据进行降维,是因为数据的原始表示常常包含大量冗余: · 有些变量的变化比测量引入的噪声还要小,因此可以看作是无关的 · 有些变量和其他的变量有很强的相关性(例如是其他变量的线性组合或是其他函数依赖关系),可以找到一组新的不相关的变量。(3) 从几何的观点来看,降维可以看成是挖掘嵌入在高维数据中的低维线性或非线性流形。这种嵌入保留了原始数据的几何特性,即在高维空间中靠近的点在嵌入空间中也相互靠近。(12) 数据降维是以牺牲一部分信息为代价的,把高维数据通过投影映射到低维空中,势必会造成一些原始信息的损失。所以在对高维数据实施降维的过程中如何在最优的保持原始数据的本质的前提下,实现高维数据的低维表示。(8) 二、降维问题 1.定义 定义1.1降维问题的模型为,其中维数据空间集合(一般为的一个子集),映射 是空间集合(一般是,)的一个子集,我们称是数据集(到)的降维。 若为的线性函数,则称为线性降维;否则,称为非线性降维。 定义1.2 称映射 为嵌入映射。(8) 2.分类 针对降维问题的目的和待处理数据集合表象维数的多少,对其进行初步的、粗略的分类如下: ·硬降维问题:数据维数从几千到几万甚至几十万的变

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档