- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ZBRS5、
本 科生毕 业设计
外文资料翻译
题
专
班
姓
基于主成分分析的特征提取方法研究
电子信息工程
084班
童佳威
指导教师所在学院
指导教师
所在学院
周扬(讲师)
信息科技学院
附 件 1?外文资料翻译译文;2?外文原文
外文译文1
内核PCA算法第二部分:
快速交叉验证和近红外光谱数据分类中的应用
摘要:PCA算法,即NIPALS,电力法(电力),奇异值分解(SVD)和特征值分解(EVD), 其内核版本是三个近红外数据系统地应用。交叉验证用于确定作为输入所需的线性判别分析 (LDA)的PC因素。作为降维方法PCA、LDA的成功分类所有三个数据集。内核算法的速度比 其相应的经典算法。四个经典的算法,SVD的是最快的。只有少数的电脑需要时,内核功率的测 量方法是最快的算法。当所有的电脑是必需的,EVD是最有效的四个内核算法,应用交叉验证时, 内核的EVD相比大大降低了运行时间的经典算法。为了进一步加快交叉验证,提出了两个矩阵 的更新方法。正常的交叉验证过程相比,第一种方法略有提高使用正常内核EVD的交叉验证的 速度。第二种方法大大加快了交叉验证,但需要修改内核的EVD算法。
1介绍
近红外光谱(NIR)已成为-?种广泛使用的分析技术在制药、食品等行业。例如,在临床研 究中,近红外可积极识别不同剂量的药物用于快速非破坏性测量片剂或胶囊。强大的化学计量学 工具,如主成分分析(PCA)经常被用来分析近红外光谱数据⑼。在以往的工作中,我们使用的 PC因素作为输入的线性判别分析(LDA)二次判别分析(QDA),正规化的判别分析(RDA)的。 然而,我们发现,近红外数据PCA是缓慢的,尤其是当交叉验证用于确定因素,在分类的数冃。 四个经典PCA算法已被改装成快速和节省计算机内存内核?PCA的UH在本文第一部分所述的版 本。在第二部分中,内核PCA算法应用于三个工业近红外数据集应用到真实的数据时,以展示 他们的效率。快速的交叉验证方法的基础上最的有利内核PCA算法被提出。
2理论
2.1符号
X。 n{)xp数据矩阵行刃()(对象)和列p (变量)。
X nx p数据矩阵有n行和P列交叉验证步骤期间使用的变量。
Xj n, xp临时测试集数据矩阵与耳行(左出的对象)和p列用于预测的变数在交叉验证步骤。 L p x r在X上获得PCA的的载荷矩阵。
S n x r在上获得PCA的得分矩阵。
Sz nt x r预测的得分矩阵X,。
U n X i?异向量矩阵的行特征向量矩阵为X。
2.2回顾内核PCA算法
经典PCA算法是有效的数据集,其中有多个对象比变量。对于范围内的数据,如近红外数 据,变量的数目(P)是比对象的数目5)高得多。经典的算法,然后变得很慢,需要一个大的 内存空间,因为这些算法估计载荷矩阵列特征向量矩阵XX (PXP)o当p高,规模较大的矩阵 XX。内核算法是基于矩阵XX* (NXN的)。当P ?N,矩阵XX曲规模也比较小。因此,内核 算法有利于有许多变数和儿个对象(P?N)的数据集。即四个经典算法NIPALS,电力法(电 力),奇异值分解(SVD)和特征值分解(EVD)被改装成自己的内核版本,在第一部分。仿真 研究表明,SVD的范围内的数据,是最高效的四个经典算法,EVD是最有利的四个内核算法。 内核算法给出了相同的分数,负荷和经典算法的特征值,当PN时更快。
2.3交叉验证和更新程序
当PCA被用于降维方法的分类,交叉验证通常被用来确定的一些因素,如LDA模型。对于 小规模的数据集(即lown),交叉验证(LOO)通常被应用。在同一时I可作为验证对象留下一个 对象。其余对象用于设置进行了 PCA的培训。主成分分析后,给定数量电脑因素(npc)用于建 立LDA。对象的分类结果是Ftl PCA-LDA的模型预测。然后另一个对象被省略了上述程序。这是 重复,直到所有的对象都一度被冷落。在最后,所有的对象都被列为一次,正确分类记录。为不 同数量的PC因素(npc),即所谓的分类正确率(CCR)获得,最佳的个人电脑数量由最好的分 类结果,即最高CCR的决定。请注意,这里不使用交叉验证树立正确的PCA模型描述的光谱数 据。相反,交叉验证选择最佳数量电脑进入LDA分类模型的因素的。
对于较大规模的数据集,是非常耗时的,而且,结果不乐观。每次只有一个对象是离开n很 大时,剩下的很难在设置上发生变化。因此,Loo的结果通常是过于乐观,获得一个独立的测试 集。你也可以使用交叉验证(莱索托)。在莱索托的对象,每次一个段被冷落,数据集X被划分 成数段或删除组(NAG),例如,叫二5。每个段中包含的所有类和或多或少平等的每类对彖。它 是通过随机分成组分别为每个类的对象。如果一个人随机选择的对象,而不是挑选对象的定义类, 它可能会发生有
文档评论(0)