网站大量收购独家精品文档,联系QQ:2885784924

机器学习基础教程452.pptVIP

  1. 1、本文档共452页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

6.1单类数据降维另设,(第k个元素为1)则有,XK=akX。由此可以求出原数据集中第k个分量与经过变换后的新数据集中第i个分量之间的相关系数。首先计算其协方差:式中,为变换后新数据集的特征值。为一标量,是行向量ak与新数据集中第i个特征向量(列向量)的乘积,也就是保留了这个特征向量的第k个分量,其余全部清零。式中,为原数据集中方差阵对角线元素中第i个分量。6.1单类数据降维例6.1有数据集包含三维数据,其协方差阵为(由于需要有较多数据才能计算协方差阵,而且计算协方差阵并不是主成分分析的核心内容,故在此直接给出协方差阵):试给出对该数据集的主成分分析。6.1单类数据降维解:首先,计算协方差阵的特征值及其对应的特征向量,特征值为:对应的特征向量为:经变换后的新变量为:从式中可以看出,X3与其他两个向量不相关,应该为主成分之一。6.1单类数据降维可以看出,在新的数据集中,Y1和Y2不相关。新数据集的方差特征值之和:新数据集中各变量所占比重为:从这里可以看出,使用新数据集中的Y2和Y3两个主成分占总体方差的0.856,具有很大的比重,可以在很大程度上代表数据的基本情况。进一步地,还可以新旧数据集中各分量的相关程度。旧数据中的X3分量与新数据集中的Y2分量相等,其相关系数为1。下面分析新变量中所占成分最大的Y3与旧数据中两个分量的情况。6.1单类数据降维从此两式可以看出,旧数据中X1的分量又占到新数据主成分Y3的94.3%,而X2分量仅占Y3的56.4%。说明旧数据中X1的分量对于新数据主成分Y3的影响很大,而X2分量对Y3的影响则在其次。在本题中,主成分分量Y2=X3与其他两个向量不相关,可直接分离出来,但更多情况下并不是这样。6.1单类数据降维例6.2有数据集包含三维数据,其协方差阵为问题?

6.1单类数据降维解:先来计算协方差阵的特征值及其对应的特征向量,特征值为:对应的特征向量为:经变换后的新变量为:很明显,这个例子和上一个例子不同,新变量没有不相关的情况。但是这并不妨碍从其中提取主成分。新数据集的方差特征值之和:6.1单类数据降维新数据集中各变量所占比重为:从这里可以看出,使用新数据集中的Y1和Y2两个主成分占总体方差的0.858。除了进行计算分析以外,主成分分析还常常通过图形化的表示给出。这主要是指碎石图,如下图所示。碎石图的横坐标为经过变换后的新数据“成分”,纵坐标为经主成分分析后各分量的特征值。碎石图可以很形象直观地反映出各个变量在总体中所占的比重。6.1单类数据降维

碎石图示意Q-Q图示意除了使用碎石图来直观观察主成分分析中各成分所占比例的情况外,通常还使用Q-Q图来观测和检验新的数据变量与原数据变量之间的相关性。6.1单类数据降维6.1.2因子分析因子分析与主成分分析有一定的相似之处,是用一组构造的变量来描述数据集中各变量之间的协方差的关系。一般来讲,这些构造的变量不能被观测,称为“因子”。因子分析的主要思想是:如果在数据集中有一些变量之间的相关性很高,说明他们之间很相似,拥有相同的“结构”,那么就将其归为一类,使用一个结构变量来代表这组变量,这个结构变量就是因子,分析的过程就称为因子分析。可以看出,经过这样的分析过程后同样也实现了数据维度的归约。下面来讨论因子分析的方法和过程。对于数据集X,其中的数据有n个分量:;各分量的均值为:;协方差矩阵为。设定数据集有m个因子:。将数据集中的各数据分量中心化,并用因子线性表达,有:6.1单类数据降维与式(6.1)相比,该式多了误差项,这是主成分分析与因子分析的不同之处之一。因子分析中,因子的数量在很大程度上是人为指定的,而不仅仅是旋转变换,因此数据集中的数据各分量可能会存在不同程度的误差。将式写成矩阵表达形式:式中,A称为因子载荷阵(n*m),其各分量aij为第i个变量在第j个因子上的载荷。F为因子向量(m*1),为误差向量(n*1)。对于这种线性表达,有一定的条件约束,即:6.1单类数据降维说明各因子之间是相互正交的,因此在这种条件下的因子分析也称为正交因子分析。如果该条件不满足,就成为了斜交因子分析。对于数据集中数据经中

文档评论(0)

139****1983 + 关注
实名认证
文档贡献者

副教授、一级建造师持证人

一线教师。

领域认证该用户于2023年06月21日上传了副教授、一级建造师

1亿VIP精品文档

相关文档