多变量分析-主成份分析-国立高雄大学统计学研究所.doc

多变量分析-主成份分析-国立高雄大学统计学研究所.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基礎統計報告 多變量分析-主成份分析 姓名:林忻靈 目錄 摘要 2 主成份分析的應用 2 主成份分析的理論 3 主成份分析的解釋 4 討論 5 參考文獻 6 摘要 主成份分析主要是利用原有的變數組合成新的變數,且新的變數個數比原變數個數來少,以達到資料縮減的目的,而新變數將盡可能可以解釋原來資料大部分的變異。 主成份分析的應用 在管理上,為了顧及決策的周延性全面分析問題,常會用一群變數來共同判定一個決策是否應該執行,但這一群變數通常是需要觀測許多變數所得到的;因此,我們希望以一些新的變數來取代這群舊的變數,並且這組新變數應盡可能的反應舊變數的資訊。 例如,某公司的財務分析師要分析其公司的財務狀況,找出了100種財務變數的資料,如何將其簡化成少數綜合指標,且這些綜合指標均是原來100種變數的性組合。 又如,某品管工程師想由一堆製程變數的量測資料中找出幾個主要的綜合指標,以顯示製程是否在控制中。 另一方面,實務上在進行迴歸分析時,有可能發現其自變數彼此高度相關資料有多重共線性,導致估計的迴歸參數標準差太大,使得顯著性檢定用的t檢定值明顯縮小,而使得我們得到的整體估計的模型配適度還不錯,但大部分的參數卻都不顯著的結果。 利用主成份分析可解決以上之問題,其中主成份分析形成的新變數是原變數的線性組合。 主成份分析的理論 先由二維主成份分析來看: 如上圖,新軸為X1*,X2*,設新軸X1*與X1的夾角為θ,則觀測點相對於新的坐標為。 主成份分析就是要找一角度θ,使X1*的變異數最大。理論上,若代入的是X1*變異數最大值時之旋轉角度,則計算後之X1*及X2*之相關係數為0。 我們可歸納幾點如下: 觀測點投影至X1,X2軸,得原變數之坐標;新軸即X1*,X2*稱為主成份,觀測點投影至X1*,X2*軸所得新值稱為主成份計分(principal components scores)。 新變數為原變數的線性組合,且均值保持不變為0。 X1*,X2*的總平方和與原變數X1,X2的總平方和相同 X1*,X2*的總變異數與原變數X1,X2的總變異數亦相同;即原資料之總變異數在旋轉θ後,保持不變。 X1*解釋總變異的百分比一定比任一原始變數X1或X2總變數的百分比大。 新變數的相關係數為0,即X1*,X2*不相關。 我們可由二維主成份分析的幾何意義推廣至多維度: 設有p個變數,則在p維空間上,新軸X1*有最大變異數表其有最大解釋變異能力;第二個新變數X2*與X1*不相關,且X2*有第二大變異數尚未被X1*解釋的變異部分,擁有最大解釋能力;第三個新變數X3*與X1*,X2*都不相關,且X3*有第三大變異數依此類推,至最多p個新變數X1*,X2*,…,Xp*為止。 理論上,主成份分析是欲導出一組新的直交坐標軸使得 所得新軸新變數稱為主成份,觀測點投影至新軸所得新坐標稱為主成份計分。 新變數為原變數的線性組合。 第一個新變數解釋原資料最大的變異數。 第二個新變數可解釋最多第一個新變數能解釋的總變異,依此類推。 p個新變數彼此不相關。 主成份分析的解釋 主成份分析的目標可公式化如下: ,其中, 所有主成份之間 xi,xj不相關,i≠j 第一個主成份x1*的變異數最大,第二個主成份x2*次之,此類推 使得新變數的尺度固定 (使得wi,wj直交或不相關 敘述統計之重要元素: 若x1,x2之互變異矩陣為 ,則可知兩變數的相關係數為0.746 (即),且總變異數為44.182,可得知x1的變異數解釋了52.26% (即)。 主成份: 要求出等係數,須在,找一向量w (weight,權重)使其滿足在w’w=1 的情形下,使得最大(其中為互變異矩陣),則此解即為矩陣的最大特徵值所對應的單位特徵向量。 其中,主成份為的線性組合,且主成份的權重平方和為1。任兩組權重的點積為0。主成份計分: 決定主成份後,可對各觀測資料點計算其對應各主成份之主成份計分;主成份計分可用來將各觀測點分類,亦可將每一個觀測點的各主成份計分綜合以計算一個加權平均的綜合性指標。 負荷(loadings): 新變數與舊變數的相關係數稱為負荷。負荷表示原始變數對新變數的影響力或重要性;負荷愈大,表示影響力愈大。 負荷可由公式求得:; 其中,表第j個變數在第i個主成份的負荷,    表第j個變數在第i個主成份的權重,    表第i個主成份的特徵值(即變異數),    表第j個變數的標準差。 討論 不同型態的資料(均值修正資料或標準化資料)對主成份分析的影響為何? 以均值修正或標準化資料所得主成份不完全相同,即變數的變異數(或標準差)的大小會影響主成份的結果。 一般而言,(1) 各變數的單位或變異數無太大不同時,兩種型態的資料均適於做主成份分析。(2) 以標準

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档