PCA降维度实验报告.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

《电子商务》实验报告

PCA降维

题目〔22〕PCA

成员

2014年6月1日

摘要

为了提高统计模式识别的正确识别率,人们通常需要采集数量巨大的数据特征,使得原始空间或输入空间的维数可能高达几千维或万维。如果直接在输入空间上进行分类器训练,就可能带来两个棘手的问题:〔1〕很多在低维空间具有良好性能的分类算法在计算上变得不可行;〔2〕在训练样本容量一定的前提下,特征维数的增加将使得样本统计特性的估计变得更加困难,从而降低分类器的推广能力或泛化能力,呈现所谓的“过学习”或“过训练”的现象。要防止出现“过学习”的情况,用于统计分类器训练的训练样本个数必须随着维数的增长而呈指数增长,从而造成人们所说的“维数灾难”。这一问题可以通过降维来解决。因为高维数据中包含了大量的冗余并隐藏了重要关系的相关性,降维的目的就是消除冗余,减少被处理数据的数量,同时还能保持数据的特征完整性,本次实验使用26维度的语音参数MFCC验证PCA降维算法。

关键字:降维、PCA、MFCC

算法分析

PCA简介

PCA的目标是为了发现这种特征之间的线性关系,检测出这些线性关系,并且去除这线性关系。PCA称为主成分分析或者主元分析。是一种数据分析的降维方法,一般常用于图像处理,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题。计算主成分的目的是将高维数据投影到较低维空间。一类事物的特征会很多,而每个特征也有很高的维数。但有些维数之间有很大的相似性,相同的维数难以区分特性,所以PCA的目标是为了发现这种特性维度之间的线性关系,检测出这些线性关系,并且去除这线性关系。

PCA算法

设X1、X2….,Xp为原始变量,F1、F2…,Fm为m个主成分因子

其使方差Var(F1)越大,表示F1包含的信息越多,故称F1为第一主成分。

(1)Fi与Fj互不相关,Cov(Fi,Fj)=0

(2)F1是X1,X2,…,Xp的一切线性组合中方差最大的,……,即Fm是与F1,F2,……,Fm-1都不相关的X1,X2,…,XP的所有线性组合中方差最大者。

F1,F2,…,Fm〔m≤p〕为构造的新变量指标,即原变量指标的第一、第二、……、第m个主成分。

PCA降维步骤

〔1〕计算原变量协方差矩阵

〔2〕求出Σ的特征值及相应的正交化单位特征向量

Σ的前m个较大的特征值?1??2?…?m0,就是前m个主成分对应的方差,对应的单位特征向量就是原来变量在主成分Fi上的载荷系数〔数学上可以证明〕,那么原变量的第i个主成分Fi为:

主成分的方差〔信息〕奉献率用来反映信息量的大小,为:

〔3〕选择主成分

最终要选择几个主成分,即F1,F2,……,Fm中m确实定是通过方差累计奉献率G(m)来确定

当累积奉献率大于85%时,就认为能足够反映原来变量的信息了,对应的m就是抽取的前m个主成分。

实验过程

2.1 实验环境

MATLAB2014a+windows8操作系统

MATLAB是一种用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境。除了矩阵运算、绘制函数/数据图像等常用功能外,MATLAB还可以用来创立用户界面及与调用其它语言〔包括C,C++和FORTRAN〕编写的程序。而2014a是第一个支持中文的MATLAB版本。

Windows8是由微软公司于2012年10月26日正式推出的操作系统。系统独特的metro开始界面和触控式交互系统,旨在让人们的日常电脑操作更加简单和快捷,为人们提供高效易行的工作环境。其支持来自Intel、AMD的芯片架构,被应用于个人电脑和平板电脑上。该系统具有更好的续航能力,且启动速度更快、占用内存更少,并兼容Windows7所支持的软件和硬件。

实验步骤

翻开MATLAB2014a,点击,将MATLAB的工作文件夹定位到mfcc.mat所在目录下,如下列图:

图2-1

双击mfcc.mat,将数据加载到工作区。

在命令行窗口输入命令:[coeff,score,latent,tsquared]=pca(mfcc);并回车,得到MATLAB自带的pca算法运行后的数据,如下列图:

图2-2

在命令行窗口输入命令:rate=cumsum(latent)./sum(latent);并回车,得到特征值的累计奉献率,如下列图:

图2-3

根据奉献率分析,需要保持95%以上的特征,所以选择前21个特征向量。在命令行窗口输入命令:tranMatrix=coeff(:,1:21);

文档评论(0)

liuzhouzhong + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档