机器学习系列手记（四）：降维之PCA最大方差理论.pdfVIP

下载本文档

6
0
约3.88千字
约 2页
2023-12-24 发布于宁夏
举报
版权申诉

机器学习系列手记（四）：降维之PCA最大方差理论.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

机器学习系列⼿记（四）：降维之PCA最⼤⽅差理论

降维

在机器学习中，数据通常需要被表⽰成向量形式以输⼊模型进⾏训练，有时这些向量所处在⾼维空间，包含很多冗余和噪声，对这样的

向量进⾏处理和分析会极⼤地消耗系统资源，甚⾄产⽣维度灾难。因此，进⾏降维，即⽤⼀个低维度的向量表⽰原始⾼维度的特征就显得极

其重要。我们希望通过降维的⽅式来寻找数据内部的特性，从⽽提升特征表达能⼒，降低训练复杂度。常见的降维⽅法有主成分分析、线性

判别分析、等距映射、局部线性嵌⼊、拉普拉斯特征映射、局部保留投影等。

⼀PCA最⼤⽅差理论

PCA（PrincipalComponentsAnalysis），即主成分分析，是⼀种线性、⾮监督、全局的降维算法，旨在找到数据中的主成分，并

利⽤这些主成分表征原始数据，从⽽达到降维的⽬的。

1、如何定义主成分

举个简单的例⼦，在三维空间中有⼀系列数据点，这些点分布在⼀个过原点的平⾯上。如果⽤⾃然坐标系三个轴来表⽰数据，就

x,y,z

需要使⽤三个维度。⽽实际上，这些点只出现在⼀个⼆维平⾯上，如果通过坐标系旋转变换使得数据所在平⾯与平⾯重合，那么就可以

x,y

通过′′两个维度表达原始数据，且没有任何损失，这样就完成了降维,⽽′′两个轴所包含的信息就是我们要的主成分。

x,yx,y

2、如何设计⽬标函数使得降维达到提取主成分的⽬的

下图（a）所⽰为⼆维空间中经过中⼼化的⼀组数据，可以很容易看出主成分所在的轴（以下简称主轴）是图（b）中的黄线所处的轴。

因为黄线所处的轴上数据分布更为分散，也就意味着数据在这个⽅向上⽅差更⼤。

在信号处理领域，我们认为信号具有较⼤⽅差，噪声具有较⼩⽅差，信号与噪声之⽐称为信噪⽐。信噪⽐越⼤意味着数据质量越好，反

之亦然。由此我们可以引出PCA的⽬标，即最⼤化投影⽅差，也就是数据在主轴上投影的⽅差最⼤。

3、PCA的求解⽅法

（1）对样本数据进⾏中⼼化处理（即去均值）。

（2）求样本协⽅差矩阵。

（3）对协⽅差矩阵进⾏特征值分解，将特征值从⼤到⼩排列。

（4）取特征值前⼤对应的特征向量，通过以下映射将维样本映射到维

dw,w,...,wnd

12d

′

新的的第维就是在第个主成分⽅向上的投影，通过选取最⼤的个特征值对应的特征向量，我们将⽅差较⼩的特征（噪声）抛

xdixdiwdd

′

弃，使得每个维列向量被映射为维列向量，定义将为后的信息占⽐为

nxidxi

∑λ

i=1i

∑λ

您可能关注的文档

文档评论（0）

洞察 + 关注: 官方认证

文档贡献者

博士生

咨询Ta 进入空间

认证主体宁夏三科果农牧科技有限公司

IP属地宁夏

统一社会信用代码/组织机构代码: 91640500MABW4P8P13

1亿VIP精品文档

更多 >

机器学习系列手记（四）：降维之PCA最大方差理论.pdfVIP