- 1、本文档共40页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
主成分分析理论知识回顾
主成分分析 营养与食品卫生学 黄莹偲 主要内容 原始指标的线性组合Ci满足如下条件: 主成分的计算和解释 任务1:估计主成分 计算原始变量的相关矩阵 求相关系数矩阵的特征根和特征根所对应的特征向量 任务2:确定主成分个数 1。根据主成分的累计贡献率来确定 ---原则:一般累计贡献率>70%为宜; 2。根据特征值来确定 ---原则:特征值≥1 任务3:解释主成分实际意义 实例 某医学院测得了20例肝病患者的4项肝功能指标:转氨酶(x1),肝大指数(x2),硫酸锌浊度(x3)和胎甲球(x4),数据列在下表中,试进行主成分分析。 相关系数矩阵 主成分分析的应用 对原始指标进行综合 即: 以较少个数的主成分(综合指标)来反映原始指 的主要信息 探索多个原始指标对个体特征的影响作用 利用因子载荷阵的结构进一步探索各主成成分与多个原始指标之间的相互关系 对样品进行综合评价 求出主成分后,选择前p个主成分Z1,Z2,…,Zp,以每个主成分的贡献率Ci=λi/m作为权数,构造综合评价函数: 主成分与原变量的关系 主成分是对变量共性的提取,它与变量间的相关系数有关。 PS:从相关矩阵出发和从协方差矩阵出发计 算所得主成分是不一样的 Add your company slogan 概括地说,主要有以下几方面的应用 对样品进行综合评价 探索多个原始指标对个体特征的影响作用 对原始指标进行综合 具体做法 通过主成分建立的回归方程实际上可视为应变量与个各原始自变量之间的线性回归方程 将多个存在多元共线性的自变量引入回归方程 直接建立的多元线性回归方程具有不稳定性;逐步回归,自变量损失,与初衷相悖 主成分分析 + 多元线性回归 先对多个自变量作主成分分析,得出少数几个主成分(主成分是各原始变量的线性组合) 然后以这几个主成分为自变量与应变量建立回归方程 身高 胸围 头围 体重 肺活量 坐高 …… 生长发育 身体素质 健康状况 …… 根据因子载荷阵,找出影响各综合指标的 主要影响因素(原始指标) 一般来说,这个f值越大,则表明该样品的综合评价效果越好,当然这还要根据各主成分的专业意义而定。 主成分分析的正确应用 基于相关矩阵计算的 对变量分布没有要求 要求变量间为线性关系 要求变量间相关性较强 主成分的总信息不变,只是信息的重新分配 主成分分析通常是研究的中间环节(多重回归,因子分析,聚类分析,判别分析) 综合评价时可提供各原始变量的权重 相关矩阵 特征根?1=1+r,?2=1-r r越大,第一主成分包括x1,x2的信息越多 两变量完全相关(r=1)时,?1=2,?2=0, 即第一主成分包含了x1,x2的全部信息; 两变量无关(r=0)时,?1=?2=1, 即第一、二主成分包含的x1,x2的信息各占一半。 因此,当自变量间的相关关系不明显时,作主成分分析意义不大。 LOGO 主成分分析的基本思想 主成分分析的几何解释 主成分的计算和解释 主成分的分析应用 1 2 3 4 为什么要用主成分分析? 1、指标与指标可能存在相关关系 信息重叠,分析偏误 2、指标太多,增加问题的复杂性和分析难度 ThemeGallery is a Design Digital Content Contents mall developed by Guild Design Inc. 如何避免 变量间相关→变量间独立 变量太多→降维简化 主成分分析的基本思想 寻找新的综合指标(主成分) 比原始变量个数少 变量间独立 尽可能多的保留原始变量的信息 变异 方差 假设有m个原始变量,寻找一系列新变量 寻找新变量C1,要求: 新变量是原始变量的线性组合, 且 新变量的方差Var(C1)最大。 将原始变量标准化: 寻找新变量C2,要求: 新变量是原始变量的线性组合, 且 新变量C2与C1无关, Corr(C1,C2)=0 新变量的方差Var(C2)次大。 同理可得:新变量C3…… 最多可有m个新变量 m m m mm 主成分间互不相关,即 组合系数 各主成分的方差依次递减,即 Corr(Ci,Cj)=0 Var(C1)≥Var(C2)≥…≥Var(Cm) 构成的向量为 单位向量,即 总方差不变,即 Var(C1)+Var(C2)+…+Var(Cm)=m 主成分与原始
文档评论(0)