判别分析Discriminant Analysis课件.pptVIP

下载本文档

4
0
约 39页
2017-01-24 发布于上海
举报
版权申诉

判别分析Discriminant Analysis课件.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

判别分析Discriminant Analysis课件

判別分析Discriminant Analysis 謝寶煖台灣大學圖書資訊學系 2006年6月3日 pnhsieh@.tw Discriminant Analysis 判別分析區別分析鑑別分析判別分析是一種相依方法，其準則變數為事先訂定的類別或組別。例如，銀行在貸款給顧客時，通常都會依顧客基本資料，如學歷、收入、借貸記錄等等..，將顧客區分為具信用之顧客與不具信用之顧客兩種，並且當有新的顧客進來時，也可比照同樣準則將新顧客的資料與這些巳存在的資料做一比較，看是否應借錢給這位新的顧客。判別分析 vs. 集群分析判別分析法（discriminant analysis），是在已知的分類之下，一旦遇到有新的樣本時，可以利用此法選定一判別標準，以判定如何該將新樣本放置於那個族群中。集群分析法（cluster analysis），則是希望將一群具有相關性的資料加以有意義的分類。假設有數個群體，對每一群體中的一些個體取幾個變量（說明變量）組，作成適當的判別標準時，即可辨別該群體的歸屬。在此處我們想要討論的情況，看起來與分群分析法類似，似乎都是要將觀察值分群分類，但是他們的使用前提及意義仍是不同的。用簡單的例子來說，如果我們已知有兩群人：一群是韓國人，另一群的日本人。現在新來了一位某甲，我們想問：某甲是韓國人呢，還是日本人？回答這樣的問題，算是判別分析。再如我們有一大群人混在一起，這裡面包括了日本、韓國、泰國，馬來西亞、....，如果我們想將他們一一分辨出來，這就是集群分析法。判別分析法之用途很多，如動植物分類，醫學疾病診斷，社區種類劃分，氣象區（或農業氣象區）之劃分，商品等級分類，職業依能力分類，以及人類考古學上之年代及人種分類等等均可利用。線性判別函數（linear discriminant function, 簡稱LDF），是判別分析法中主要的工具。最早由 R.A. Fisher（1936）提出。 Fisher 提出線形判別函數，並應用於花卉分類上。他將花卉之各種特徵（character）（如花瓣長與寬、花萼長與寬等）利用線性組合（linear combination）方法，將這些基本上是多變量的數據（multivariate data），轉換成單變量（univariate data）。再以這個化成單變量的線性組合數值來判別事物間的差別。判別分析大意圖典型相關(canonical correlation) 判別函數的典型相關是組間平方和與總平方和比值的平方根。平方後，它就是由組間差異解釋的總變異量的比例。注意事項：分組變數可以有兩個 (或以上) 的數值。但是，分組變數的代碼必須為整數，而且必須指定其最小值和最大值。觀察值的數值如果超出這個範圍，就不會分析它。範例一般而言，溫帶國家的人，每天消耗的卡路里會比熱帶的人多，而且溫帶地區中，住在都市的人口比例也會比較高。研究人員想將這些資訊，併成一個函數，以便判斷受訪者對這兩個國家的人民，能細分到什麼樣的程度。研究人員認為，人口數量和經濟資訊，應該也相當重要。因此，使用判別分析，能讓您估計線性判別函數的係數，判別函數的運算式，看起來跟多重線性迴歸方程式的右側內容很像。亦即是，它也使用 a、b、c 和 d 係數，函數如下： D = a * 氣候 + b * 都市 + c * 人口 + d * 每人國民生產毛額如果這些變數，有助於判別兩種不同的氣候區域，那麼溫帶國家和熱帶國家的 D 值就會不同。如果您使用逐步的變數選取法，可能會發現此函數中，不需要包含四個變數。統計量。對於每個變數而言，則有：平均數、標準差、單變量 ANOVA。對於每種分析而言，則有：Box M、組內相關矩陣、組內共變異數矩陣、各組共變異數矩陣、總和的共變異數矩陣。對於每種典型判別函數而言，則有：特徵值、變異數百分比、典型相關、 Wilks’ Lambda 值、卡方。對每個步驟而言：事前機率、Fisher 函數係數、未標準化函數係數、每個典型函數的 Wilks’ Lambda 值。階層集群分析統計分析＞分類＞階層式集群... 如果要將觀察值分成集群的話，請至少選取一個數值變數。如果要將變數分成集群的話，請至少選取三個數值變數。或者，您可以選取識別變數做為觀察值的註解。這個程序會根據您所選取的特性，試圖找出具有相對同質性的觀察值 (或變數) 組別。它所使用的演算法，會從個別集群中的每一個觀察值 (或變數) 開始，然後再與集群組合，直到只剩下一個為止。您可以分析原始資料，或從各種不同的標準化轉換中選擇。「近似性」程序會產生距離或相似性量數。每個階段都會顯示統計量，以協助您選出最適用的數值。範例以電視節目為例，您可以根據電視節目所吸引的觀眾群，將