- 45
- 0
- 约11.77万字
- 约 74页
- 2020-11-11 发布于江苏
- 举报
基于图嵌入的稀疏特征提取
摘要
特征提取方法可用于提取数据的重要信息,减少数据的冗余特征。经典的特
征提取方法包括主成分分析(Principal component analysis, PCA)以及局部保持投影
(Locality preserving projections, LPP)等基于统计以及几何结构的方法。研究人员发现,
这些方法可以通过一个叫图嵌入的模型进行统一的表达。图嵌入方法在机器学习和模
式识别领域中有着广泛的应用。但是,随着数据规模的增长,这些方法面临许多新的
问题和挑战。
首先,经典的图嵌入特征提取方法由于采用Frobenius 范数作为模型基本度量,存
在鲁棒性不强的问题,即在数据有噪声的情况下,这些方法性能会受到较大影响。其
次,随着大数据时代的到来,采用实值特征进行相似性计算时间复杂度较高。如何实
现高效的相似性计算也是亟待解决的问题。最后,经典的图嵌入方法主要采用手工特
征作为模型输入,无法有效地刻画数据的非线性结构,我们希望引入深度神经网络进
一步提高方法性能。本文的贡献包括以下三个部分:
(1)为了提升经典局部保持投影方法的鲁棒性,我们使用 范数作为目标函数
的基本度量,以此最小化数据的局部重构误差并得到鲁棒的特征提取模型。此外,本
文通过引入稀疏正则,使方法实现特征选择功能,进一步提升其性能。为了优化基于
范数的目标函数,我们设计了一个迭代权重算法用于求解,并证明了迭代算法的
收敛特性。
(2)为了提高大规模数据集上的检索速度,研究人员提出了哈希学习方法。哈希
学习方法旨在得到低维的二值特征(二值码),即特征向量仅包含0 和 1。利用二值特
征作为数据的低维表示,可以大大减少相似性计算时间。然而,现有的哈希学习方法
普遍采用先进行特征提取,再进行量化的两步操作得到二值码,模型存在信息损失。
因此,本文提出了一种集图嵌入特征提取和量化操作为一体的哈希学习方法。通过联
合优化投影矩阵、正交旋转矩阵以及二值码,所提出的方法可以有效减少低维实值特
征和二值特征之间的信息损失,并直接得到最优的离散解和哈希函数。
(3)近几年来,哈希学习领域涌现了许多以深度神经网络为基础的深度哈希方
法。然而,为了减少训练成本,深度哈希方法一般只选取部分训练集进行网络优化。
因此,这些深度哈希方法无法充分利用已有的监督信息得到更具鉴别力的哈希网络以
及能保持数据整体结构特性的最优二值码。为改进这些问题,本文提出了以图嵌入为
I
基于图嵌入的稀疏特征提取
基础的深度哈希模型。具体地,我们设计了一个基于锚点图的回归优化问题来最小化
深度特征以及二值码之间的信息损失。通过迭代优化该问题,我们的方法一方面可以
得到最优的二值特征用于数据表示,避免信息损失;另一方面,网络也可以根据二值
码的线性组合得到更具鉴别力的反馈,从而提高特征学习能力。
关键词:特征提取;图嵌入;鲁棒性;哈希学习;深度哈希
II
SparseFeature Extraction Based on Graph Embedding
Abstract
Feature extraction technique is used to extract the important information and eliminate
the redundant features in the data. Traditional feature extraction methods include Principal
Component Analysis (PCA) and Locality Preserving Projections (LPP), which are based on
statistical information or geometric structure of databases. Note that these methods can be
integrated into a general framework, called
原创力文档

文档评论(0)