PA降维度实验报告.doc

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PA降维度实验报告.doc

《电子商务》实验报告 PCA降维 题目( 题目(22) PCA 成员 2014年6月1日 为了提高统计模式识别的正确识别率,人们通常需要采集数量巨大的数据特 征,使得原始空间或输入空间的维数可能高达几T?维或万维。如果直接在输入空 间上进行分类器训练,就可能带来两个棘手的问题:(1)很多在低维空间具冇良 好性能的分类算法在计算上变得不可行;(2)在训练样本容量一定的前提下,特 征维数的增加将使得样本统计特性的估计变得更加困难,从而降低分类器的推广 能力或泛化能力,呈现所谓的“过学>r’或“过训练”的现象。要避免出现“过 学:^”的情况,用于统计分类器训练的训练样本个数必须随着维数的增长而呈指 数增长,从而造成人们所说的“维数灾难”。这一问题可以通过降维来解决。因 为高维数据中包含了大量的冗余并隐藏了重要关系的和关性,降维的目的就是消 除冗余,减少被处理数据的数量,同时还能保持数据的特征完整性,本次实验使 用26维度的语音参数MFCC验证PCA降维算法。 关键字:降维、PCA、MFCC 算法分析 1.1 PCA简介 PCA的目标是为了发现这种特征之间的线性关系,检测出这些线性关系,并 且去除这线性关系。PCA称为主成分分析或者主元分析。是一种数据分析的降 维方法,一般常用于图像处理,它可以从多元事物屮解析出主要影响因素,揭示 事物的木质,简化复杂的问题。计算主成分的口的是将高维数据投影到较低维空 间。一类事物的特征会很多,而每个特征也有很高的维数。但有些维数之间有很 大的相似性,相同的维数难以区分特性,所以PCA的目标是为了发现这种特性 维度之间的线性关系,检测出这些线性关系,并且去除这线性关系。 1.2 PCA算法 设XI、X2-., Xp为原始变量,FI、F2…,Fm为m个主成分因子 ~ A + “21X2 + …+ apXp 其4吏方差Var(Fl)越大,表示FI包含的信息越多,故称F1为第一主成分。 F2 =j-Vj F2 = j-Vj +“12又2 + “21 又 1 +“22又2 + + a\pxp + (22pXp Fm = am\Xi+am2X2 + + Fi 与 Fj 互不相关,Cov(Fi, Fj) = 0 F1是XI, X2,…,Xp的一切线性组合中方差最大的,……,即Fm是与F1, F2,……,Fm — 1都不相关的XI, X2,…,XP的所冇线性组合屮方差最大者。 F1,F2,…,Fm(m彡p)为构造的新变量指标,即原变量指标的第一、第二、……、 第m个主成分。 1.3 PCA降维步骤 (1)计算原变量I?办方差矩阵 1n-ink=\ 1 n-i n k=\ (2)求出X的特征值及相应的正交化单位特征向量 S的前m个较大的特征值1 2 ... m0,就是前m个主成分对应的方差, 对应的单位特征句量就是原来变量在主成分Fi上的载荷系数(数学上可以证明), 则原变量的第i个主成分Fi力: 主成分的方差(信息)贡献率用来反映信息量的大小,为: 选择主成分 最终要选择几个主成分,即F1,F2,……,Fm屮m的确定是通过方差累计贡献率 G(m)来确定 当累积贡献率大于85%时,就认为能足够反映原來变量的信息了,对应的m就 是抽取的前m个主成分。 实验过程 2.1 实验环: MATLAB 2014a+windows 8 操作系统 MATLAB是一种用于算法开发、数据可视化、数据分析以及数值计算的高 级技术计算语言和交互式环境。除了矩阵运算、绘制函数/数据图像等常用功能 外,MATLAB还可以用来创建用户界面及与调用其它语言(包括C, C++和 FORTRAN)编写的程序。而2014a是第一个支持屮文的MATLAB版本。 Windows 8是由微软公司于2012年10川26円正式推出的操作系统。系统独 特的metro开始界面和触控式交互系统,g在让人们的口常电脑操作更加简单和 快捷,为人们提供高效易行的工作环境。其支持来自Intel、AMD的芯片架构, 被应用于个人电脑和Y板电脑上。该系统具有更好的续航能力,且启动速度史快、 占用内存更少,并兼容Windows 7所支持的软件和硬件。 将MATLAB的工作文件夹定1. 将MATLAB的工作文件夹定 1. 打幵MATLAB 2014a,点击 位到mfcc.mat所在目录下,如下图: 酒「A ? C: ? Users ? jackeven ? Desktop ? data 当前文件夹 命令頒口 □名称▲ A? bank-data.arff bank-new.arff bid mfcc.mat 图2-1 双击mfcc.mat,将数拋加载到工作区。 在命令行窗U输入命令:[coeff, score, latent, tsquared] = pca(mfcc);并冋车,

文档评论(0)

ggkkppp + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档