- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
9.1 数据降维;提纲;为什么进行数据降维;监督特征选择;监督特征选择-选择特征集合;监督特征选择;提纲;主成份分析(Principal Component Analysis, PCA )是一种利用线性映射来进行数据降维的方法,并去除数据的相关性; 且最大限度保持原始数据的方差信息。
;一项著名的工作是美国的统计学家斯通(stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。
在进行主成份分析后,以97.4%的精度,用三新变量就取代了原17个变量的方差信息。根据经济学知识,斯通给这三个新变量分别命名为总收入f1、总收入变化率f2和经济发展或衰退的趋势f3。; 利用3维向量能够保持原始17维向量,97.4%的方差信息
(是在低维空间能够尽可能多保持原始空间数据的方差)
我们所讨论的问题中都有一个近似的假设,假定数据满足高斯分布或者近似满足高斯分布
问题:高斯分布需要什么参数刻画?
均值,方差(离散程度);; 由图可以看出这n个样本点沿着fl 轴方向有最大的离散性,这是第一个主成份
为了去掉相关性,第二个主成份应该正交于第一个主成份
如果只考虑fl和f2 中的任何一个,那么包含在原始数据中的信息将会有损失。
根据系统精度的要求,可以只选择fl
;?;假设我们所讨论的实际问题中,X是p维变量,记为X1,X2,…,Xp,PCA就是要把这p个变量的问题,转变为讨论p个变量的线性组合的问题
这些新的分量f1,f2,…,fk(k≤p),按照保留主要信息量的原则充分反映原变量的信息,并且相互独立。;两个线性代数的结论 ; 2、若上述矩阵的特征根所对应的单位特征向量为 ;协方差矩阵; 第二步:求出协方差矩阵分别所对应的特征向量U1,U2,…,Up, ; 第三步:任一个样本的正交变换 ;; 第四步:从所有变换成份中取K个主成分 ;x1; 1)贡献率:第i个主成份的方差在全部方差中所占比重 称为贡献率 ,反映了原来i个特征向量的信息,有多大的提取信息能力 。;PCA 给人脸数据降维 ;计算过程为:;PCA:用于人脸降维;特征人脸;提纲; 所谓流形(manifold)就是一般的几何对象的总称。流形包括各种维数的曲线曲面等。和一般的降维分析一样,流形学习把一组在高维空间中的数据在低维空间中重新表示。和以往方法不同的是,在流形学习中有一个假设,就是所处理的数据采样于一个潜在的流形上,或是说对于这组数据存在一个潜在的流形。
;降维
特征选择:依据某一标准选择性质最突出的特征
特征变换:经已有特征的某种变换获取约简特征
数据可视化和数据挖掘分析也需要降维
通常降到2维或3维
流形降维来观测数据的内在形状;线性方法: (PCA);线性方法的不足;1 许多高维采样数据都是由少数几个隐含变量所决定的, 如人脸采样由光线亮度, 人离相机的距离, 人的头部姿势, 人的脸部肌肉等因素决定.
2 从认知心理学的角度, 心理学家认为人的认知过程是基于认知流形和拓扑连续性的.;;前提假设:采样数据所在的低维流形在局部是线性的,即每个采样点可以用它的近邻点线性表示.
学习目标:在低维空间中保持每个邻域中的权值不变, 即假设嵌入映射在局部是线性的条件下, 最小化重构误差.;假设即策略
采样数据所在的低维流形在局部是线性的,即每个采样点可以用它的近邻点线性表示.
在低维空间中保持每个邻域中的权值不变。;1. 计算每一个点 的近邻点, 一般采用K 近邻或者 邻域.
2 .计算权值 使得把 用它的K个近邻点线性表示的误差最小, 即通过最小化 来求出 .
3 .保持权值 不变, 求 在低维空间的映射 , 使得低维重构误差最小.
;1. 计算每一个点 的近邻点(可采用K-NN的方法).
2 .对于点 和它的近邻点的权值 ,
最小化 得到:
;3. 求解低维流形嵌入 ;流形(Manifold)-LLE 最小化重构误差; 流形学习作为一种非线性降维或数据可视化的方法
已经在图像处理如人脸图像,手写数字图像, 语言处理
方面得了利用.
将其作为一种监督的学习方法用于模式识别, 虽然
有研究者涉足, 但是目前在这方面的工作还很有限.;
您可能关注的文档
最近下载
- 小学体育三年级下册全册教案表格式小学体育三年级下册全册教案表格式.doc VIP
- (2025)冠脉介入培训试题答案.docx VIP
- 毛利人的传统文化.pptx VIP
- 新西兰毛利文化课件.pptx VIP
- 固体物理学 -课件(3.1.1)--第三单元课件.pdf VIP
- 小学三年级上册体育计划及教案(全册)(表格式107页).doc VIP
- Dell戴尔Dell 32 Plus 4K QD-OLED显示器 - S3225QC用户指南.pdf
- 部编版小学二年级下册道德与法治第三单元《绿色小卫士》教材解读.pdf VIP
- 遗失补办户口本授权委托书.doc VIP
- 2020年自考《播音与主持创作基础》练习试题及答案.doc VIP
文档评论(0)