- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PCA主成分分析 principal component analysis 内容 一、PCA背景 二、主成分的定义及导出 三、从相关阵出发求主成分 四、主成分分析总结 在模式识别中,一个常见的问题就是特征选择或特征提取,理论上我们要选择与原始数据空间相同的维数。但是,为了简化计算,设计一种变换使得数据集由维数较少的“有效”特征来表示。 找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。 一、主成分分析背景 PCA的优点是简单,而且无参数限制,可以方便的应用与各个场合。 因此应用极其广泛,从神经科学到计算机图形学都有它的用武之地。被誉为应用线形代数最价值的结果之一。 主成分分析由皮尔逊(Pearson,1901)首先引入,后来被霍特林(Hotelling,1933)发展了。 在PCA中,我们感兴趣的是找到一个从原d维输入空间到新的k维空间的具有最小信息损失的映射。 X在方向w上的投影为: 二、主成分的定义及导出 设 为一个n维随机向量, 主成分 是这样的,样本投影到 上之后被广泛散布,使得样本之间的差别变得最明显,即最大化方差。 设 希望在约束条件 下寻求向量 , 使 最大化 写成拉格朗日问题 现在关于 求导并令其等于0,得到 如果 是 的特征向量, 是对应的特征值,则上式是成立的 同时我们还得到 为了使方差最大,选择具有最大特征值的特征向量 ,因此,第一个主成分 是输入样本协方差阵的具有最大特征值对应的特征向量。 第二个主成分 也应该最大化方差,具有单位长度,并且与 正交。 对于第二个主成分,有 关于 求导并令其为0,得到 上式两边乘以 得: 其中 可知β=0 ,并且可得 这表明 应该是 的特征向量,具有第二大特征值 类似的,可以证明其它维被具有递减的特征值的特征向量给出。 另一种推导: ,W是矩阵。 如果建立一个矩阵C,其第i列是 的规范化的特征向量,则 ,并且 三、从相关阵出发求主成分 其中,D是对象矩阵,其对角线元素是特征值 ,称为 的谱分解 由于C是正交的,并且 ,在 的左右两边乘以 和C,得到 如果 则 为了使它等于一个对角矩阵,可以令W=C 在实践中,即使所有的特征值都大于0,某些特征值对方差的影响很小,并且可以丢失,因此,我们考虑例如贡献90%以上方差的前k个主要成分,当 降序排列时,由前k个主要成分贡献的方差比例为: 实践中,如果维是高度相关的,则只有很少一部分特征向量具有较大的特征值,k远比n小,并且可能得到很大的维度归约。 总方差中属于主成分 的比例为 称为主成分 的贡献率。 第一主成分 的贡献率最大,表明它解释原始变量 的能力最强,而 的解释能力依次递减。 主成分分析的目的就是为了减少变量的个数,因而一般是不会使用所有主成分的,忽略一些带有较小方差的主成分将不会给总方差带来大的影响。
文档评论(0)