- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
高光谱成像数据的低维表示
关键词:降维;高光谱成像技术;主成分分析线性判别法局部线性嵌入Lower Dimensionality of High-Dimension Data
With the large volume of data coming,high dimensional data is very difficult to be analyzed.Trecognition by hyperspectral imaging is larger and larger. So several ways are introduced to reduce the data dimensionality.They low dimensional structure of high dimensional data, and can reduce the complexity of data analysis. After, the intrinsic connection between the data can be got easily,and is helpful to research the distributing rulesKeywords: Dimension Reduction; Hyperspectral Imaging; Principal Component Analysis; Linear Discriminant Analysis; Locally Linear Embedding; Non-negative Matrix Factorization一、研究背景
100-1000 个连续窄波段上成像,所成的图像具有3 个维度—2 个空间维度和1 个波长维度。传统的成像技术只在3 个宽波段上成像(红、绿、蓝),每个波段的带宽在100nm 数量级上,而高光谱成像在上百至上千个波段上成像,每个波段的带宽可小于1nm,且成像波段不局限在可见光范围内。其数据量也相应以指数的量级增加,如果直接对这些数据进行处理,会有以下问题:首先,会出现所谓的“位数灾难”问题,巨大的计算量将使我们无法忍受;其次,这些数据通常没有反映出数据的本质特征,如果直接对他们进行处理,不会得到理想的结果。所以,通常我们需要首先对数据进行降维,然后对降维后的数据进行处理。
数据降维的基本原理是把数据样本从高维输入空通过线性或非线性映射投影到一个低维空间,从而找出隐藏在高维观测数据中有意义的低维结构之所以能对高维数据进行降维,是因为数据的原始表示常常包含大量冗余:
有些变量的变化比测量引入的噪声还要小,因此可以看作是无关的有些变量和其他的变量有很强的相关性(例如是其他变量的线性组合或是其他函数依赖关系)可以找到一组新的不相关的变量
从几何的观点来看,降维可以看成是挖掘嵌入在高维数据中的低维线性或非线性流形。这种嵌入保留了原始数据的几何特性,即在高维空间中靠近的点在嵌入空间中也相互靠近。
数据降维是以牺牲一部分信息为代价的,把高维数据通过投影映射到低维空中,势必会造成一些原始信息的损失。所以在对高维数据实施降维的过程中如何在最优的保持原始数据的本质的前提下,实现高维数据的低维表示。
二、降维问题
1.定义
定义1.1降维问题的模型为,其中维数据空间集合(一般为的一个子集),映射
是空间集合(一般是,)的一个子集,我们称是数据集(到)的降维。
若为的线性函数,则称为线性降维;否则,称为非线性降维。
定义1.2 称映射
为嵌入映射。
2.分类
针对降维问题的目的和待处理数据集合表象维数的多少,对其进行初步的、粗略的分类如下:硬降维问题:数据维数从几千到几万甚至几十万的变化,此时需要对数据集进行“严厉”的降维,以至于达到便于处理的大小,如图像识别、分类问题以及语音识别问题等。软降维问题:此时数据集合的维数不是太高,降维的需求不是非常的迫切。如社会科学、心理学以及多元统计分析领域皆属于此类。可视化问题:此时数据集合的绝对维数不是很高,但为了便于利用人们的直观洞察力,即为了可视化,我们将其降到2或3维。虽然我们可以可视化更高维数的数据,但是它们通常难于理解,不能产生数据空间的合理形态。
若我们还考虑时间变量的话可以对降维问题进行更加进一步的分类,静态降维问题和动态降维问题。后者对于时间序列来讲是有用的,如视频序列、连续语音信号等的处理。
3.方法
实际处理中,由于线性方法具有简单性、易解释性、可延展性等优点,使得线性降维在高维数据处理中是一个主要研究方向。已有的线性维数约简方法,主要包括主成分分析(Principal Component Analysis,PCA)、独立成分分析(Independent Component Analysis,ICA)
文档评论(0)