大数据存储与应用 降维.pptx

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据存储与应用 降维

大数据存储与应用降维/?page_id=397课程主页:/?page_id=397http/?page_id=397:///?/?page_id=397page_id=397陈一帅mailto:chenyishuai@chenyishuai@介绍为什么要降维?找出规律,压缩数据量几维?降维看起来3维,其实2维看起来2维,其实1维内容特征值与特征向量PCA(主元素分析)Principal-Component AnalysisSVD(奇异值分解)Singular-Value DecompositionCUR分解特征值与特征向量特征值与特征向量定义计算方法Power Iteration寻找特征对(Eigenpairs)特征向量矩阵定义M 矩阵, λ常数,e非零列向量Me = λe唯一确定一个ee为unit vector第一个非零元素为正一般计算方法要 , 的行列式等于0求得λ然后通过Me = λe求e计算复杂度O(n3)Power Iteration方法任选一个向量X0递归误差 Frobenius norm足够小时,停止这个Xk就是M的主特征向量然后通过 Mx = λx 求 λx是一个单位向量:X-1 = XTPower Iteration方法再找第二个特征对在M中去掉第一个主特征向量的因素然后类似计算特征向量矩阵特征向量是单位向量特征向量之间正交特征向量矩阵 E 的特点PCAPCA事例使用特征向量进行降维距离矩阵原理将矩阵与一个正交单位向量矩阵相乘,意味着在欧式空间上的旋转求 的特征矩阵E,对高维数据进行旋转原数据变成在新的坐标上的投影。新的坐标上,第一维是主特征向量指向的那个方向,能量最强以后依次递减使降维成为可能对称阵逆时针45度旋转原始数据按虚线旋转在新坐标系上的位置第一维的能量 第二维的能量,而且它们正交所以,如果要降到一维,无疑,应该保留第一维,把第二维去掉PCASVDSVD定义降维应用计算定义r 是 A 的 Rank (秩)U:左奇异向量 Left singular vectors 单位正交矩阵 :奇异值 Singular values对角阵,V:右奇异向量 Right singular vectors 单位正交矩阵例二维M的秩 r = 2科幻浪漫概念强度矩阵科幻浪漫浪漫科幻电影 – 概念 矩阵用户 – 概念 矩阵SVD用户电影观看矩阵用户 – 概念 矩阵科幻浪漫概念强度矩阵科幻浪漫科幻浪漫在实际中,U,V中没有这么多0概念分得没有这么清电影 – 概念 矩阵SVD的理解V是把电影按照用户进行概念分类后的结果五部电影,投影到“科幻”“浪漫”两个概念上SVD的理解 是将用户按照电影进行概念分类后的结果7个用户,投影到“科幻”“浪漫”两个概念上基于SVD的降维降概念强度最低那一维用户 – 概念 矩阵概念强度矩阵电影 – 概念 矩阵降维结果误差评估降维证明为什么去掉 最小的那一维,误差最小?需要证明两点如果M = PQR 是M的SVD,有qii是Q对角线上的值,也就是实践中保持80~90%的能量计算复杂度看哪个小LINPACK, Matlab, SPlus, Mathematica都有实现和特征向量的关系就可以用Power Iteration的方法解 是 的特征值对角阵U是 的特征向量矩阵V是 的特征向量矩阵就是PCA的那个旋转矩阵E应用已知:赵老师喜欢Matrix,给它评分为5,问:赵老师喜欢什么类型的片?qV计算,把赵老师投影到概念空间上应用给赵老师推荐什么片?把赵老师的概念向量qV,乘视频的概念向量VT,得到推荐的视频向量 = [1.64 1.64 1.64 -0.16 -0.16]给他推荐《异形》 ?应用寻找和赵老师兴趣相同的人他们虽然看的是不同的片,但发现了他们的兴趣相同通过UI矩阵发现的SVD的问题结果难以解释为什么这么多维?U和V很Dense!占空间多CURCUR正确地选择行/列构造中间矩阵消除冗余的行/列缘起克服SVD的问题M = CUR随机找c行,组成C选行j的概率P(j) = 其能量(值的平方和)/A的总能量选出后,除它可能被挑上的次数的开方好处:好理解,C稀疏求UW是C和R的交集对它SVD: Z+ 伪反 (pseudoinverse)Z中的元素,如果是0,保持不变;如果非0,取倒数性能[Drineas et al.] 取 行,

文档评论(0)

153****9595 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档