(十)主成分分析.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
(十)主成分分析

主成分分析(Principal components analysis ) JerryLead  csxulijie@    在这一篇之前的内容是《Factor Analysis》,由于非常理论,打算学完整个课程后再写。 在写这篇之前,我阅读了 PCA、SVD 和 LDA。这几个模型相近,却都有自己的特点。本篇打 算先介绍 PCA,至于他们之间的关系,只能是边学边体会了。PCA 以前也叫做 Principal factor  analysis 。  1. 问题  真实的训练数据总是存在各种各样的问题:  1、 比如拿到一个汽车的样本,里面既有以“千米/每小时”度量的最大速度特征,也有“英 里/小时”的最大速度特征,显然这两个特征有一个多余。  2、拿到一个数学系的本科生期末考试成绩单,里面有三列,一列是对数学的兴趣程度,一 列是复习时间,还有一列是考试成绩。我们知道要学好数学,需要有浓厚的兴趣,所以 第二项与第一项强相关,第三项和第二项也是强相关。那是不是可以合并第一项和第二 项呢?  3、拿到一个样本,特征非常多,而样例特别少,这样用回归去直接拟合非常困难,容易过 度拟合。比如北京的房价:假设房子的特征是(大小、位置、朝向、是否学区房、建造 年代、是否二手、层数、所在层数),搞了这么多特征,结果只有不到十个房子的样例。 要拟合房子特征‐房价的这么多特征,就会造成过度拟合。  4 、这个与第二个有点类似,假设在 IR 中我们建立的文档‐词项矩阵中,有两个词项为“learn” 和“study ”,在传统的向量空间模型中,认为两者独立。然而从语义的角度来讲,两者 是相似的,而且两者出现频率也类似,是不是可以合成为一个特征呢?  5、在信号传输过程中,由于信道不是理想的,信道另一端收到的信号会有噪音扰动,那么 怎么滤去这些噪音呢?    回顾我们之前介绍的《模型选择和规则化》,里面谈到的特征选择的问题。但在那篇中 要剔除的特征主要是和类标签无关的特征。比如“学生的名字”就和他的“成绩”无关,使 用的是互信息的方法。  而这里的特征很多是和类标签有关的,但里面存在噪声或者冗余。在这种情况下,需要 一种特征降维的方法来减少特征数,减少噪音和冗余,减少过度拟合的可能性。  下面探讨一种称作主成分分析(PCA)的方法来解决部分上述问题。PCA 的思想是将 n 维特征映射到 k 维上(kn),这 k 维是全新的正交特征。这 k 维特征称为主元,是重新构造 出来的 k 维特征,而不是简单地从 n 维特征中去除其余 n‐k 维特征。  2. PCA 计算过程  首先介绍 PCA 的计算过程:  假设我们得到的 2 维数据如下:    行代表了样例,列代表特征,这里有 10 个样例,每个样例两个特征。可以这样认为, 有 10 篇文档,x 是 10 篇文档中“learn”出现的 TF‐IDF,y 是 10 篇文档中“study ”出现的 TF‐IDF。也可以认为有 10 辆汽车,x 是千米/小时的速度,y 是英里/小时的速度,等等。  第一步分别求 x 和 y 的平均值,然后对于所有的样例,都减去对应的均值。这里x 的均 值是 1.81,y 的均值是 1.91,那么一个样例减去均值后即为(0.69,0.49 ),得到    第二步,求特征协方差矩阵,如果数据是 3 维,那么协方差矩阵是    这里只有 x 和 y ,求解得    对角线上分别是 x 和 y 的方差,非对角线上是协方差。协方差大于0 表示 x 和 y 若有一 个增,另一

文档评论(0)

专注于电脑软件的下载与安装,各种疑难问题的解决,office办公软件的咨询,文档格式转换,音视频下载等等,欢迎各位咨询!

1亿VIP精品文档

相关文档