Python机器学习项目化教程(微课视频版)课件 第9章 降维分析.pptx

Python机器学习项目化教程(微课视频版)课件 第9章 降维分析.pptx

  1. 1、本文档共20页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第9章降维分析

目录CONTENTS9.1PCA9.2奇异值分解9.3本章小结

9.1PCA学习基础学习认知能力信息素养高降维的目的就是要找出更准确、简洁描述样本属性的组合方式。方差过滤作为特征工程中一种重要的特征选择方法,它认为如果一个特征的方差很小,则意味着这个特征上很可能有大量取值都相同,则该特征的取值对样本而言就没有区分度,该特征就不包含有效信息;如果一个特征的方差很大,则说明该特征上拥有大量有效信息。

9.1PCA这组数的均值都为(2.5,2.5),方差为(3,3),方差计算过程为:将原本的直角坐标系逆时针旋转45°,形成了新的特征向量x1和x2组成的新平面,

9.1PCA选择其中一个特征进行分析,则优化目标就是要最大化每个特征的方差,即:目标函数为:

9.1PCA利用拉格朗日乘子法求解:

9.1PCA(1)计算样本每个特征的平均值,将每个样本数据减去该特征的平均值,即进行归一化处理;(2)计算归一化处理后的样本的协方差矩阵;(3)找到协方差矩阵的特征值和特征向量;(4)对特征值按照从大到小排序,特征向量相应排序;(5)计算特征值的累计贡献率,并求前k行构成的特征向量构成的矩阵P;(6)计算Y=PX,即为经过PCA降维后的k维数据。

9.1PCA根据PCA算法的实现原理,对于给定的矩阵X,先计算出协方差矩阵mat_cov,然后得到特征值和特征向量,选取前k个特征向量,就得到变换后的矩阵X_mat。

9.1PCA为了验证经过pca降维过的数据能表示原数据的特征,随机生成一组数据,并观察降维后每个特征方差占的比例,并进行可视化。

9.1PCA

9.2奇异值分解奇异值分解(SingularValueDecomposition,SVD)是一种矩阵因子分解方法回顾一下特征值分解。设A为n阶方阵,若存在数λ和非零向量x,使得:

9.2奇异值分解矩阵的奇异值分解是指,将一个非零的m×n实矩阵A,表示为以下三个实矩阵乘积形式的运算,即进行矩阵的因子分解:

9.2奇异值分解

9.2奇异值分解

9.2奇异值分解SVD是通过求ATA的特征值和特征向量进行降维。实际上,scikit-learn的PCA算法的背后真正的实现就是用的SVD,而不是我们我们认为的暴力特征分解。假设我们的样本是m×n的矩阵A,如果我们通过SVD找到了矩阵ATA最大的d个特征向量张成m×d维矩阵U,如果进行如下处理:左奇异矩阵可以用于行数的压缩。相对的,右奇异矩阵可以用于列数即特征维度的压缩,也就是我们的PCA降维。

9.2奇异值分解

9.2奇异值分解

9.2奇异值分解对于文本检索和推荐系统,都会涉及到大量的文本数据需要处理。文本检索和新闻分类其实就是一个聚类问题,关键是如何计算查询与文档的相似度、两篇新闻的相似度。查询、文档、新闻均可看作是一个文本,可表示成由一系列词汇组成的向量,夹角越小,表明两篇新闻越相关;当它们垂直正交时,表示两篇新闻无关。为了提高计算效率,往往需要先对特征进行降维,SVD就是一种常见的降维方法。

9.2奇异值分解

9.3本章小结PCA和SVD作为两种常用的降维方法,被应用于数据压缩、去噪等方面。PCA和SVD都属于无监督的学习算法,都可将原始数据投影到新的低维空间中,以最大程度地保留原始数据的方差信息。其中,PCA通过构建一种被称为主成分的变量,并将所用到的所有向量映射到由主成分变量构建的空间上去。SVD用于将矩阵分解为三个矩阵的乘积:左奇异矩阵、右奇异矩阵和对角矩阵。PCA只能获取单个方向上的主成分,而SVD可以获取两个方向上的主成分。PCA在维数很大的时候计算量很大,并且某些情况下可能会丢失数据精度。

您可能关注的文档

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档