SIMCA分类法中主成分分析算法探究.doc

下载文档 降价啦

1181
0
约3.27千字
约 6页
2017-06-20 发布于福建
举报
版权申诉
保障服务

SIMCA分类法中主成分分析算法探究.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

SIMCA分类法中主成分分析算法探究

SIMCA分类法中主成分分析算法探究　　摘要：模式识别是研究用计算机模拟人的识别能力，对不同类型形式的数据进行描述、分类、识别等有关的理论和方法。SIMCA方法是基于主成分分析之上的一种模式识别方法，本文对SIMCA分类法中主成分分析的算法进行了比较研究，并在MATLAB中进行了模拟和结果比较关键词：模式识别；SIMCA分类法；主成分分析中图分类号：R965； O6204 文献标识码：A 文章编号：1007-9416（2017）04-0145-02 1 基于主成分分析的SIMCA分类法[1] SIMCA（Soft Independent Modeling Class Analog）是由瑞典化学家Wold于1976年提出的一种基于主成分分析（PCA，Principal component analysis）的分类方法。它利用先验分类知识，对每一种类别建立一个PCA模型，然后利用这些建立的模型判断未知样本的归属。SIMCA方法是通过F检验设定分类的置信区间，针对每个类，其F检验的两个维度的自由度分别为：（M-A）和（n-A-1）（M-A），其中M为变量数（变量数对每类应该是一样的），A为该类的有效主成分数，n为该类的样本数。对化学测量来说，一般样本数n都远远小于测量变量数M，为使每个维度的自由度大于0，请注意样本数、变量数和选择的主成分数之间的关系 1.1 原理 SIMCA方法是一种建立在主成分分析基?A上的模式识别方法，其基本思路是先利用PCA分析建立每个类别的模型，然后计算未知样本与PCA模型的距离，根据距离判别方法判别分析，以确定其属于哪一类或不属于哪一类 1.2 计算过程 SIMCA方法的计算过程流程图如图1所示，通过图示过程，可以看出SIMCA分类法是多次使用主成分分析方法，首先利用PCA分析得到整个样本的分类，然后，为每一个类建立PCA模型，最后用它们来判别未知样本的类别从上述讨论可知，在整个SIMCA方法的计算过程中，每一类样本进行了主成分建模，因此主成分分析方法对结果起决定作用 2 主成分分析主成分分析（Principal components analysia）是由Hotelling于1933年首先提出的。PCA是将多个指标的数据进行降维化为少数几个指标的一种方法，它在尽可能保留原有信息的基础上将样本指标数压缩，使数据矩阵简化，降低维数，由少数几个原始变量线性组合的“有效”特征成分来揭示数据结构特征，提取主要信息 2.1 主成分分析基本原理人们在对具体事物进行研究时，为了更详细全面的了解事物的特性，常常会涉及到多指标问题，为获取可靠信息，往往考虑尽可能相关的多个指标去观测，而在实际问题中多指标也增加了问题的复杂度，指标之间总是有一定的相关性及信息重叠，我们希望用较少的指标反映事物的特征。基于此，就产生了主成分分析，主成分分析是通过分析可观测的指标，提取几个较少的综合指标以揭示原来变量绝大多数信息的一种多元统计方法[2，3，4] 综上所述，利用PCA得到的主成分与原始变量的关系可以归结如下：（1）每一个主成分都是原始变量的线形组合（2）主成分的数目明显小于原始变量的数目（3）主成分带有原始变量的大部分信息（4）各主成分之间互不相关 2.2 主成分分析算法[5-14] 2.2.1 特征值分解对数据进行预处理，得到矩阵X，又通过计算得到协方差矩阵Z，最后根据协方差矩阵得到特征值和特征矢量，这种计算过程称为特征值分解方法。计算过程在MATLAB语言环境中，用一个语句[V，D]=eig（X）就可得到特征值对角阵D和满秩正交矢量阵V，且XV=VD 2.2.2 奇异值分解奇异值分解是另一种对数据矩阵进行求解的方法，它更稳定用途广泛。利用MATLAB语言对数据矩阵Xnm作奇异值分解，[U，S，V]=svd（X），可得式中，U、S和V的大小分别为n×r、r×r和m×r，且U′U=Ir×r，V′V=Ir×r，X′X=VS2V′， XX′=US2U′ 与下节中的X=TP相比，可知T=US，P=V′且λ=S2，即实数矩阵的特征值等于相应奇异值的二次方。由于svd性能优异且表示简洁，已被广泛采用 2.2.3 NIPALS法计算主成分的方法还有非线性迭代偏最小二乘法（nonlinear iterative partial least squires，NIPALS）。这一方法以所需计算机内存少、易于实现著称以对m个变量的n次观测值组成一个矩阵为例 X= 假定Xn×m的秩为r[r 　　（1）从Xn×m中任取一向量，将其赋值给，；（2）计算，即；（3）将归一化，即；（4）计算