- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第 8 章 主成分分析
§ 8.1 主成分分析的基本思想
在实际生活中, 我们经常会遇到需要对多个变量进行统计推断的统计分析问题。 在这些
问题中,变量个数可能多达十几个、几十个、甚至上百个。比如,作一次健康体检,可以测
得人体的十几项、几十项生理指标。 环境检测取一份水样,可以测得水中十几种、 几十种成
分的含量。 评定一个毕业生的学习好坏, 可以考虑他学过的十几门、几十门学科的成绩。考
察一个上市公司的业绩, 可以从股市年报中读到几十种、 上百种与业绩有关的数据。 变量个
数多了, 就不容易看清变量之间的相互关系, 不容易从中得出有用的结论, 会给统计分析带
来很大的困难。
但是, 日常生活也给了我们一些启发:如果我们要去定做一套服装,从理论上说, 需要
测量身长、袖长、裤长、胸围、腰围、臀围、领口、袖口、裤口等十几种、几十种尺寸。可
是实际上, 我们并不需要这么多尺寸, 只需要报出几个主要的尺码就可以了。 因为这些尺寸
之间往往是有一定比例关系的, 所以,几个主要的尺码, 就大致上综合了原来十几种、 几十
种尺寸中所包含的信息。
由此我们产生了一种想法,也就是 主成分分析 (Principal Component Analysis )的
基本思想: 能否对原来多个变量进行适当的组合, 组合成一些综合指标, 用较少的综合指标
来近似代替原来的多个变量。 这种由原来多个变量组合而成的综合指标, 就称为 主成分 (也
称主分量 ,Principal Component )。
主成分选取的原则是:
(1)主成分是原变量的线性组合。
(2)各个主成分之间互不相关。
(3)如果原来有 m个变量,则最多可以取到 m 个主成分,这 m 个主成分的变化,可以完
全反映原来全部 m个变量的变化;如果选取的主成分少于 m 个,那么,这些较少的主成分
的变化,应该尽可能多地反映原来全部 m 个变量的变化。
191
§ 8.2 主成分分析的计算过程和计算结果
设对 m 个变量
1, 2, , 进行 n次观测,得到观测数据矩阵:
m
x
11
x
12
x
1m
X
x
i
j
n m
x
21
x
22
x
2m
x
n1
x
n2
x
nm
设
x x
~ (i 1, 2, , n , j 1, 2, , m )是中心化标准化的观测数据,
i j j
x
i s
j
j
其中 x
n
1
j x
i
n
i 1
j
是变量 j 的样本均值,
s
n
1
j ( x x
i jj ( x x
n
i 1
j
)
2
是变量
j 的样本
标准差。
变换后的
~ (i 1, 2, , n , j 1, 2, , m )组成的矩阵
x
i j
~
X
~
x
i
j
n m
~
x
11
~
x
21
~
x
12
~
x
22
~
x
1m
~
x
2m
~
x
n1
~
x
n2
~
x
nm
是中心化标准化的观测数据矩阵。
1 ~ T ~
按公式 R X X
n
求出的矩阵就是 样本相关阵 (Sample Correlation Matrix ) 。
矩阵
R r 中的元素
i j
m m
n
(
x
k i
x
i
)(
x
k
j
x
j
)
r
i
j
n
k 1
2
)
n
(
x
k
j
x
j
)
2
(
x
k
i
x
i
k 1 k 1
满足 1 r 1。
i j
当 r 1时,表示变量 i 与变量 j 正线性相关;
i j
当 ri j 0 时,表示变量 i 与变量 j 不相关;
当 r 1时,表示变量 i 与变量 j 负线性相关。
i j
如果对数据只进行中心化,不进行标准化,即
192
~
x
i
j
xi x ,i 1, 2, , n , j 1, 2, , m 。
j j
1 ~T ~
这时,按公式 X X
S
n
求出的矩阵就是 样本协方差阵 (Sample Covariance Matrix )。
1
对样本相关阵 R 作特征分解 , 得到
T
R U U , 其中,
是由 R 的
m
u
11
u
1m
特征值 0
1 m 组成的对角阵,
2
U
是由 R 的标准正交化
u
m1
u
mm
的特征向量按列并排组成的正交阵。
U 称为 主成分载荷阵 (Principal Component Loading Matrix ),它是用 主成 分
~ ~ ~
, 2 , , , , ,
1 表示(中心化标准化的)原变量 1 m 时的系数矩阵,即有
m 2
~
1
u
11
1
u
1m
m
~
m
u
m1
1
u
mm
m
,
~
1 1
用矩阵形式表示,就是
~
m
U
m
。
1
~
1
由于 U 是正交阵,满足
1 U T
U ,所以又有
U
T
~
,即有
m m
1
u
11
~
1
u
m1
~
m
。
m
您可能关注的文档
- 离散数学公式课件.doc
- 离散数学答案(尹宝林版)第二章习题解答课件.doc
- 离散数学试题及解答课件.doc
- 离散数学集合论部分形成性考核书面作业课件.doc
- 离散时间信号与离散时间系统..课件.doc
- 离职书范本课件.doc
- 离职协议书课件.doc
- 离职证明范本课件.doc
- 秀谷镇卫生院公共卫生科绩效考核实施方案课件.doc
- 私人健身教练必备专业知识160题课件.doc
- 2025北京航空工业集团综合所高层次人才及博士招聘20人笔试参考题库附答案.docx
- 2025安徽亳州市利辛县巡察信息中心遴选5人备考题库附答案.docx
- 2025宁波鄞州区东柳街道编外招聘1人备考题库附答案.docx
- 2025云南楚雄市机关事业单位选调63人备考题库附答案.docx
- 2025北京中国社会科学调查中心招聘劳动合同制人员1人备考题库附答案.docx
- 2025宁波市市场监督管理局局属事业单位宁波市标准化研究院招聘高层次人才1人备考题库附答案.docx
- 2025河南郑州铁路职业技术学院招聘合同制工作人员48人笔试历年题库附答案解析.docx
- 2025云南玉溪市红塔区文化和旅游局招聘办公辅助人员1人备考题库附答案.docx
- 2025山东日照市岚山区卫生健康系统事业单位招聘20人备考题库附答案.docx
- 2025四川九州电子科技股份有限公司招聘车载电子事业部-PQE岗笔试参考题库附答案.docx
原创力文档


文档评论(0)