- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第 5 章主成分分析与经验正交分解
5.1 主成分分析数学模型
当存在若干个随机变量时,寻求它们的少量线性组合(即主成分),用以解释这些随机
变量,是很必要的。首先我们看一个例子。
例5.1 为了调查学生的身材状况,可以测量他们的身高(x )、体重(x )、胸围(x )和坐高(x )。
1 2 3 4
可是用这4个指标表达学生身材状况不方便。但若用
y1 3.6356 x 1 +3.3242x 2 +2.4770x 3 +2.1650x 4
表示学生身体魁梧程度;用
y2 =-3.9739 x 2 +1.3582x 1 +3.7323x 3 -1.5729 x 4
表示学生胖瘦程度。则这两个指标( y1 ,y2 )很好概括了 4 个指标(x 1 - x 4 )。
例 5.1 中,学生不同,身高( )、体重( )、胸围( )和坐高( )不同;( , , , )
x x x x x x x x
1 2 3 4 1 2 3 4
是 4 维随机向量;y1 ,y2 是他们的 2 个线性组合,y1 ,y2 能很好表示x 1 , x 2 , x 3 , x 4 的特性。类似
的问题在许多地方出现:可观测的随机变量很多,需要选出所有所有随机变量的少数线性组合,使之尽可能
刻划全部随机变量的特性,选出的线性组合就是诸多随机变量的主成分,又称为主分量。寻求随机向量主
成分,并加以解释,称为主成分分析,又称为主分量分析。主成分分析在许多学科中都有应用,细节可参
看张尧廷(1991)、Richard(2003),主成分分析在气象等科学中称为 PCA方法,见吴洪宝(2005)。
主成分分析的数学模型是:对于随机向量 X ,想选一些常数向量c ,用c X 尽可能多反映随机向量 X
i i
的主要信息。也即D (c X ) 尽量大。但是c 的模可以无限增大,从而使D (c X ) 无限变大,这是我们不希
i i i
望的;于是限定c 模的大小,而改变c 各分量的比例,使D (c X ) 最大;通常取c 的模为 1 最方便。
i i i i
定义 5.1 设随机向量X (x ,...x ) 二阶矩存在,若常数向量c ,在条件 c =1 下
1 p 1
使D (c X ) 最大,则称Y c X 是 X 的第一主成分或第一主分量。
1 1
由定义可见,Y 尽可能多地反映原来 p 个随机变量变化的信息。但是一个主成分往往不能完全反映随
1
机向量特色,必须建立其它主成分,它们也应当最能反映随机向量变化,而且他们应当与第一主成分不相关
原创力文档


文档评论(0)