统计方法讲座教案分析.ppt

主成分分析 Principle Component Analysis (PCA) 数理教研室 陈婷婷 为什么用PCA?(Why) 什么是PCA?(What) 怎样使用PCA?(How) 为什么用PCA?(Why) 多个指标的问题 1.指标与指标之间有可能存在相关关系 信息重叠,分析偏误 2.指标太多,增加问题的复杂性和分析难度 如何避免? PCA 为什么用PCA?(Why) 儿童生长发育指标 身高,腿长,臂长 肩宽,胸宽,臀骨宽 胸围,臀围,大腿围 围度 分别用每一个指标评价生长发育,孤立,非综合。 用个别指标,失去有用信息,结论片面。 长度 宽度 什么是PCA?(What) 数学语言? 将彼此相关的指标变量转化为彼此不相关的指标变量; 个数较多的指标变量转化为个数较少的指标变量; 意义单一的指标变量转化为意义综合的指标变量。 寻找适当的线性变换 将彼此相关的变量转换为彼此不相关的变量; 方差较大的几个新变量综合反映原多个变量包含的信息; 新变量各自带有独特的专业意义。 PCA的基本思想 第二主成分 第一主成分 不相关 无重叠信息 方差最大、信息量最多 方差其次、信息量其次 每个主成分系数平方和为1 互不相关 方差依次递减 怎样使用PCA?(How) 拟采用电感耦合等离子体发射光谱法(I C P-O E S) 测定浙江义乌、浙江缙云、浙江上虞、湖南浏阳、湖北武汉、江西南昌等6 个不同产地的延胡索中微量元素的含量, 试进行综合评价。 变量间的相关性 主成分个数的确定 (1)根据累计贡献率≥85% (2)根据特征根 的大小,保留?1的主成分。 前4 个主成分的方差贡献率达93.157%,选取前4 个主成分。 碎石图 由陡坡变平坦的转折点 为主成分选择的最佳个数 主成分实际意义的解释: 第1 主成分中的C u、Ca、P b 、Z n 的载荷系数较大, 对其贡献较多,是延胡索的特征性微量元素。 主成分载荷阵 主成分得分阵 主成分实际意义的解释: SIMCA-P 电子鼻技术研究天麻药材-饮片-浸膏-配方颗粒过程的气味相关性 1、2 和3 号样品间的差异较小,而4号样品与其他样品的差异较大。 第i个主成分的贡献率 Thanks!

文档评论(0)

1亿VIP精品文档

相关文档