关于降维系统的解释DimensionalityReduction.docxVIP

关于降维系统的解释DimensionalityReduction.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关于降维系统的解释DimensionalityReduction

第十讲. 降维——Dimensionality Reduction===============================(一)、为什么要降维?(二)、主成分分析Principal Component Analysis?(PCA)?(三)、PCA 算法流程(四)、从压缩数据中恢复原数据(五)、怎样决定降维个数/主成分个数(六)、应用PCA进行降维的建议本章主要讲述应用PCA算法进行数据降维的原理=====================================(一)、为什么要降维?About data:我们需要一组关于XXX的数据,定义就铺天盖地的来了,百万级个特征拿过来,我们怎么进行机器学习啊?!李航老师在他的博客《机器学习新动向:从人机交互中》中提到,学习精度越高,学习确信度越高,学习模型越复杂,所需要的样本也就越多。样本复杂度满足以下不等式由此可见,feature太多会造成模型复杂,训练速度过慢,因此我们引入降维。About Visualization:多维数据很难进行可视化分析,因此我们需要降维分析。=====================================(二)、About?Principal Component Analysis (PCA)?PCA 目的:降维——find a low dimension surface on which to project data ~如图所示,蓝色的点project到红色surface上得到绿点,寻找surface使得两点之间的orthogonal distance总和最小,就是PCA的任务。PCA 与 Linear Regression 的区别:1. PCA衡量的是orthogonal distance, 而linear regression是所有x点对应的真实值y=g(x)与估计值f(x)之间的vertical distance距离2. more general 的解释:PCA中为的是寻找一个surface,将各feature{x1,x2,...,xn}投影到这个surface后使得各点间variance最大(跟y没有关系,是寻找最能够表现这些feature的一个平面);而Linear Regression是给出{x1,x2,...,xn},希望根据x去预测y,所以进行回归=====================================(三)、PCA 算法流程?假设有m个samples,每个数据有n维。----------------------------------------数据预处理----------------------------------------1.?计算各个feature的平均值,计μj ;(Xj(i)表示第i个样本的第j维特征的value)μj = Σm?Xj(i)/m2.?将每一个feature scaling:将在不同scale上的feature进行归一化;3.?将特征进行mean normalization令Xj(i)= (Xj(i)-μj)/sj这样呢,我们需要做的就是两件事:第一,如何寻找这个surface?第二,给定surface,怎样求点到surface投影的value?---------------------------------------?PCA算法选取k个主分量----------------------------------------4.?求n×n的协方差矩阵Σ:5. 根据SVD求取特征值和特征向量:[U,S,V] = SVD(Σ)其中,SVD为奇异值分解(singular value decomposition),在matlab中有函数[U,S,V] = svd(A) 返回一个与A同大小的对角矩阵S(由Σ的特征值组成),两个酉矩阵U和V,且满足= U*S*V。若A为m×n阵,则U为m×m阵,V为n×n阵。奇异值在S的对角线上,非负且按降序排列。那么对于方阵Σ呢,就有Σ = USVΣΣ = USV*VSU = U(ΣΣ)UΣΣ = VSU*USV = V(ΣΣ)Vi.e. U是ΣΣ的特征向量矩阵;V是ΣΣ的特征向量矩阵,都是n*n的矩阵由于方阵的SVD相当于特征值分解,所以事实上U = V, 即Σ = USU, U是特征向量组成的正交矩阵我们的目的是,从n维降维到k维,也就是选出这n个特征中最重要的k个,也就是选出特征值最大的k个~so...goto next step6. 按特征值从大到小排列,重新组织U如果使用matlab的svd求得特征值,就可以直接跳过这步了,因为该函数返回值中,奇异值在S的对角线上按照降序排列。否则的话应进行排序,并按照该次序找到对应的特征向量重新排

文档评论(0)

2017ll + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档