- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PA降维度实验报告.doc
《电子商务》实验报告PCA降维
题目(
题目(22) PCA 成员
2014年6月1日
为了提高统计模式识别的正确识别率,人们通常需要采集数量巨大的数据特 征,使得原始空间或输入空间的维数可能高达几T?维或万维。如果直接在输入空 间上进行分类器训练,就可能带来两个棘手的问题:(1)很多在低维空间具冇良 好性能的分类算法在计算上变得不可行;(2)在训练样本容量一定的前提下,特 征维数的增加将使得样本统计特性的估计变得更加困难,从而降低分类器的推广 能力或泛化能力,呈现所谓的“过学>r’或“过训练”的现象。要避免出现“过 学:^”的情况,用于统计分类器训练的训练样本个数必须随着维数的增长而呈指 数增长,从而造成人们所说的“维数灾难”。这一问题可以通过降维来解决。因 为高维数据中包含了大量的冗余并隐藏了重要关系的和关性,降维的目的就是消 除冗余,减少被处理数据的数量,同时还能保持数据的特征完整性,本次实验使 用26维度的语音参数MFCC验证PCA降维算法。
关键字:降维、PCA、MFCC
算法分析
1.1 PCA简介
PCA的目标是为了发现这种特征之间的线性关系,检测出这些线性关系,并 且去除这线性关系。PCA称为主成分分析或者主元分析。是一种数据分析的降 维方法,一般常用于图像处理,它可以从多元事物屮解析出主要影响因素,揭示 事物的木质,简化复杂的问题。计算主成分的口的是将高维数据投影到较低维空 间。一类事物的特征会很多,而每个特征也有很高的维数。但有些维数之间有很 大的相似性,相同的维数难以区分特性,所以PCA的目标是为了发现这种特性 维度之间的线性关系,检测出这些线性关系,并且去除这线性关系。
1.2 PCA算法
设XI、X2-., Xp为原始变量,FI、F2…,Fm为m个主成分因子
~ A + “21X2 + …+ apXp
其4吏方差Var(Fl)越大,表示FI包含的信息越多,故称F1为第一主成分。
F2 =j-Vj
F2 =
j-Vj +“12又2 + “21 又 1 +“22又2 +
+ a\pxp + (22pXp
Fm = am\Xi+am2X2 + +
Fi 与 Fj 互不相关,Cov(Fi, Fj) = 0
F1是XI, X2,…,Xp的一切线性组合中方差最大的,……,即Fm是与F1,
F2,……,Fm — 1都不相关的XI, X2,…,XP的所冇线性组合屮方差最大者。 F1,F2,…,Fm(m彡p)为构造的新变量指标,即原变量指标的第一、第二、……、 第m个主成分。
1.3 PCA降维步骤
(1)计算原变量I?办方差矩阵
1n-ink=\
1
n-i
n
k=\
(2)求出X的特征值及相应的正交化单位特征向量
S的前m个较大的特征值1 2 ... m0,就是前m个主成分对应的方差,
对应的单位特征句量就是原来变量在主成分Fi上的载荷系数(数学上可以证明), 则原变量的第i个主成分Fi力:
主成分的方差(信息)贡献率用来反映信息量的大小,为:
选择主成分
最终要选择几个主成分,即F1,F2,……,Fm屮m的确定是通过方差累计贡献率 G(m)来确定
当累积贡献率大于85%时,就认为能足够反映原來变量的信息了,对应的m就 是抽取的前m个主成分。
实验过程
2.1 实验环:
MATLAB 2014a+windows 8 操作系统
MATLAB是一种用于算法开发、数据可视化、数据分析以及数值计算的高
级技术计算语言和交互式环境。除了矩阵运算、绘制函数/数据图像等常用功能 外,MATLAB还可以用来创建用户界面及与调用其它语言(包括C, C++和 FORTRAN)编写的程序。而2014a是第一个支持屮文的MATLAB版本。
Windows 8是由微软公司于2012年10川26円正式推出的操作系统。系统独 特的metro开始界面和触控式交互系统,g在让人们的口常电脑操作更加简单和 快捷,为人们提供高效易行的工作环境。其支持来自Intel、AMD的芯片架构, 被应用于个人电脑和Y板电脑上。该系统具有更好的续航能力,且启动速度史快、 占用内存更少,并兼容Windows 7所支持的软件和硬件。
将MATLAB的工作文件夹定1.
将MATLAB的工作文件夹定
1.
打幵MATLAB 2014a,点击
位到mfcc.mat所在目录下,如下图:
酒「A ?
C: ? Users ? jackeven ? Desktop ? data
当前文件夹
命令頒口
□名称▲
A?
bank-data.arff
bank-new.arff
bid mfcc.mat
图2-1
双击mfcc.mat,将数拋加载到工作区。
在命令行窗U输入命令:[coeff, score, latent, tsquared] = pca(mfcc);并冋车,
文档评论(0)