主成分分析和一些函数.docVIP

下载本文档

8
0
约4.8千字
约 7页
2016-03-14 发布于安徽
举报
版权申诉

主成分分析和一些函数.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

主成分分析和一些函数.doc

主成分分析主成分概念首先由 Karl Parson在1901年引进，当时只对非随机变量来讨论的。1933年Hotelling将这个概念推广到随机变量。在多数实际问题中，不同指标之间是有一定相关性。由于指标较多及指标间有一定的相关性，势必增加分析问题的复杂性。主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标。同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来的指标的信息。主成分分析（Principal Component Analysis，PCA），将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。又称主分量分析。在实际课题中，为了全面分析问题，往往提出很多与此有关的变量（或因素），因为每个变量都在不同程度上反映这个课题的某些信息。主成分分析首先是由K.皮尔森对非随机变量引入的，尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。主成分分析是设法将原来众多具有一定相关性（比如P个指标），重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合，作为新的综合指标。最经典的做法就是用F1（选取的第一个线性组合，即第一个综合指标）的方差来表达，即Var(F1)越大，表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的，故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息，再考虑选取F2即选第二个线性组合，为了有效地反映原来信息，F1已有的信息就不需要再出现再F2中，用数学语言表达就是要求Cov(F1, F2)=0，则称F2为第二主成分，依此类推可以构造出第三、第四，……，第P个主成分。程序： function [lambda,T,fai]=MSA2(A) %求标准化后的协差矩阵,再求特征根和特征向量 %标准化处理 [p,n]=size(A); for j=1:n mju(j)=mean(A(:,j)); sigma(j)=sqrt(cov(A(:,j))); end for i=1:p for j=1:n Y(i,j)=(A(i,j)-mju(j))/sigma(j); end end sigmaY=cov(Y); %求X标准化的协差矩阵的特征根和特征向量 [T,lambda]=eig(sigmaY); disp(特征根(由小到大):); disp(lambda); disp(特征向量:); disp(T); %方差贡献率; Xsum=sum(sum(lambda,2),1); for i=1:n fai(i)=lambda(i,i)/Xsum; end disp(方差贡献率:); disp(fai); u=T(:,n); B=[]; h=length(A(:,1)); for k=1:n m1=mean(A(:,k)); t=(A(:,k)-m1).^2; m2=sqrt(sum(t))/(h-1); B=[B,(A(:,k)-m1)./m2]; End V = var(X) 如果X是一个向量，返回向量X的方差。如果X是一个矩阵，var(X)返回一个包含矩阵X每一列方差的行向量。如果X是一个N维数组，var沿着第一个X的非单一维进行操作。只要X是独立同分布的，结果V是X分布的总体方差的无偏估计。当N1时，var由N-1来标准化，其中N是样本大小。只要样本是独立同分布的，它就是X分布的总体方差的无偏估计。对N=1来说，v由N来标准化。 V = var(X,1) 由N来标准化，并且生成了样本关于其均值的二阶矩，var(X,0)等价于var(X)。 V = var(X,w) 计算向量X的方差利用权重向量w，向量w中元素的数目必须和X中的列的数目相同，向量w中的元素必须全是正数。var归一化w是的总和为1。 V = var(X,w,dim) 沿着指定维数dim求X的方差，默认用N-1标准化这时w为0，w为1时用N标准化。方差是其标准差(STD)的平方. 应用举例编辑本段回目录x=[4,6,4,3,5,7] var(x) ans = 2.1667 R = corrcoef(X) 返回相关系数矩阵R，对行是观测值、列是变量的矩阵X计算相关系数得到相关系数矩阵R。阵R=corrcoef(X)与协方差矩阵C=cov(X)有以下关系: R = corrcoef(x,y) 如果x和y都是列向量，那么其功能和corrcoef([x y])是相同的。