非奇异矩阵算法综述概述.docx

下载文档 降价啦

11
0
约2.41万字
约 25页
2017-05-07 发布于湖北
举报
版权申诉
保障服务

非奇异矩阵算法综述概述.docx

1、本文档共25页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

NMF 综述摘要：非负矩阵分解（NMF）是一种相对新颖的降低维数的范例，在它的理论创立以来一直处于上升的趋势。正是由于其包含的非负性约束，使得通过微小特征分析理解进而增强相应问题的可解释性。本文着眼于研究NMF过去5年NMF理论，在原则、基本模型、属性和NMF算法各种变化、扩展这几个方面上上进行系统地归纳总结。现有的NMF算法分为四类:基本NMF(BNMF),限制NMF(CNMF),结构化NMF(SNMF)和广义NMF(GNMF)，同时对这些算法的设计原则、特点、存在的问题、相互间的关系以及相关的拓展已经得到了详尽的阐述和分析。本文的主旨有1：对于一些并非从事于NMF理论的研究人员，NMF理论和他们的研究领域的联系和他们学习借鉴的价值，2：对现如今需要运用到NMF理论的开放性课题进行讨论，3：对几个NMF相关应用领域进行简要描述。本文致力于建立一个集成的、最先进的NMF的概念框架,使得后续研究可能从中获益。关键词：数据挖掘技术，数据降维，多变量数据分析，非负矩阵分解（NMF） 1.NMF介绍在科学、工程研究领域有一种深深根植其中的理论就是在明显错综混杂之中存在有简练、潜在的元素成分在其中扮演着主导作用。这个理论在信号处理、数据分析、数据挖掘、模式识别和机器学习等方面有很好的体现。在如今的数字化、信息化时代，由于传感器和计算机技术的发展存在有越来越多的可用原始数据，在多元数据分析过程中如何通过适当地降维得到具有鲜明代表性的特征数据是一项重要的、必要的、并且具有挑战性的工作。一般说来，在数据降维过程中需满足两条基本特性：1，原始数据的维数需得到有效的、真实意义上的减少；2，数据主成分,隐藏特性,突出特性,或数据模式上下文的潜在变量这四个部分需得到有效地识别。在许多情况下,原始数据集或观测数据是以矩阵（或矢量）的形式组织，通过线性（或多重线性）组合模型来描述的。在这基础上，数据降维这一概念可以从代数的角度更简洁、明确地表述为：将原始数据矩阵分解为两个因子矩阵。许多数据规范化方法,如主成分分析(PCA),线性判别分析(LDA),独立分量分析(ICA),矢量量化(VQ)等,都属于这种低秩近似的范本。它们互相之间的差别在于附加在数据成分矩阵上的基于不同数据统计模型的约束条件和算法的底层结构两方面的不同。然而,它们的共同点在于对因式分解后的矩阵元素特征标识没有约束条件。换句话来说，它们允许负的分解量存在 (允许有减性的描述),并且能实现线性的维数约减。区别于它们的，一种新的变换方法 ———非负矩阵分解(Nonnegative Matrix Factor ,NMF)，它包含有非负的约束从而部分、局部的特征表征以及加强了相应问题的可解释性，是由Paatero和Tapper联合Lee 和 Seung在《Nature》上提出的。事实上，NMF的概念在很久以前用作为化学计量学中的“自我建模曲线分辨率”，表明向量是连续曲线而不是离散向量的。NMF起初被Paatero和Tapper介绍过来时使用的是正数矩阵分解的称号，注重于通过复杂的算法的实现使用到一项专门的应用中。其中表现出来的缺陷限制了相关理论（例如算法的收敛性、解决方案的特性）和算法之于其他应用方向的一般化的发展。所幸的是，NMF理念因为Lee 和 Seung他们所做的研究工作---更为简单有效的算法和对其局部特征表征的潜在价值的着重强调而变得越来越流行。远超过了数学领域的探究范围，尝试为表征对象的各个部分特征提供可行算法模型的NMF理论中蕴含着近似于感知机制的哲学理念，局部表征的概念看起来很直观，但它确实是生理学和心理学案例---对整体的感知由对组成整体的部分的感知构成的(纯加性的)的解释基础，是电脑计算对象识别问题的核心理念之一。事实上，NMF包含有两个互补的内涵---非负成分和纯加性。一方面，负的成分在真实世界的数据中观测数据和潜在数据（比如影像、光谱和基因数据、实际问题分析数据）中在物理上毫无意义，同时，现有的对象原型通常用特定的语义进行阐述，例如在脸部识别中，其所基于的图像区域是局部的（像是脸的局部特征，眼睛、鼻子、嘴和脸颊等）而并非是整体的。另一方面，感兴趣对象一般通过它的对其局部特征的详细属性目录和专属附加特性进行描述识别，有了上述两项便可以对对象进行重建就像是通过拼图辨认嫌疑犯一样。正是由于上述特点，NMF在实际场景任务应用中取得了巨大的成功，在文本聚类算法中,NMF不仅在精度改进方面也在潜在语义识别方面均超越了经典的聚类方法,如光谱聚类。除此之外，非负约束在某种程度上会自然而然导致稀疏性，稀疏性的表述已被证明是介于完全分布式的描述和单一活跃分量的描述间的一种有效数据描述形式，当NMF被解释为一种神经网络学习算法---从现有数据中挖掘潜在信息，局部特征就从加性模型中获