集群分析幻灯片.pptVIP

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
集群分析 Cluster Analysis 基本定義 一個分類系統的創造:將一群物體加以分類的過程[In statistics, the search for relatively homogeneous groups of objects is called cluster analysis (SPSS)] 應用議題: 生物學:分類物種 醫學:疾病分類 消費行為:消費型態分類 集群分析法: 三種測量集群相似性的方法 相關測量(correlational measures) 求取每一不同配對受測樣本之間在特定題目的不同相關性 分析重點在於不同受測個體在不同分類變項的關係型態變異 差異測量(distance measures) 求取受測樣本之間距離的差異 分析重點在於受測樣本在所有的不同分類變項形成的整體分類概念上的整體性差異 聯結測量(association measures) 求取受測樣本之間在類別變項上的分佈差異特性 Cluster vs. Factor Analysis 這一個班的同學要如何分類 他們的成績 單變項集群分析結果 Example Profile diagram: Preliminary screening for outliers 網路購物被騙時,你怎麼辦? 階段一:定向 確立研究的目的 分類系統的建立:兼顧探索性與確認性 資料簡化 關係的探究 重要的議題 分類變項的選擇:選擇具有鑑別力的適當變項 階段二:研究設計 三個決策的重點 1. 偏離值如何檢測? 2. 樣本相似性如何測量? 3. 資料是否需要經過標準化? 重要議題 集群分析涉及一連串研究者的主觀判斷,因此判斷的合理性與依恃的的基礎便格外重要 階段三:假定的考量 集群分析不是母數統計, 而是一套客觀的分類程序, 涉及複雜的數學計算程序, 並沒有嚴格的統計假定必須遵守 兩個重要的分析影響條件 representativeness樣本的代表性 multicollinearity變項的多元共線性 階段四:集群的分離與評鑑 決定形成集群的策略 決定集群的合理數目 集群分析的程序 階層法 凝聚法 (agglomerative) 分離法 (divisive) 非階層法 二階段法(Ward法):結合變異數分析,找出兩群最佳的集群使MSwithin最小 階段五:集群的解釋 集群分離出來之後, 決定集群性質的過程 類似於因素分析法的命名問題 非標準化資料:就原始資料意義來說明 標準化資料:需迴歸資料原始狀態 可以使用區別分析來釐清 階段六:集群的效度驗證 一旦集群確立之後, 對於集群的性質的區辨力以及穩定性與類化性的評估 進行相關性的研究, 選取重要的變項來進行預測與分類分析 集群分析的技術特性 測量集群距離的方法 最近法(single linkage) 最遠法(complete linkage) 平均法 (centroid method, average linkage) 測量差異的方法 Squared Euclidean distance歐幾里得距離(個體差距平方和) City-block approach(個體差距絕對值總和) 謝比雪夫法:個體最大差距的距離 Minkowski: 乘冪距離法 資料的型態 標準化 vs. 非標準化 分類的層次 階層測量距離方法 Agglomerative hierarchical clustering 匯聚法:將所有物體歸入越來越大的類別中直到所有的物體屬於同一類 當物體前一個步驟歸入所屬的類別後即不得改變 Divisive hierarchical clustering 分裂法:將所有的物體從一個大類區分成兩類直到所有的物體都自成一類 非階層測量距離方法 階段性閾值:選擇一個種子, 針對某一個距離標準來分類 平行閾值:同時選擇多個種子, 針對某一個距離標準來分類 資料標準化 當變項對於測量的尺度(單位)有相當的敏感度時, 應採用標準化策略 優點 易於比較 有一致的變動性 缺點 失去原有變項的變異特性 分析技術 Squared Euclidean distance: (non-standardized) (157-144)2+(43-48) 2=194 缺點:受單位的影響 分析技術 Squared Euclidean distance: (standardized) (.38-.81)2+(-.46-(-.11)) 2=.307 缺點:失去測量變項的特質 Outliers Raw Data and Standardized Scores 歐幾里德距離平方 Squared Euclidean distance 集群樹狀圖 * * 歐幾里得平方距離 個體第一次形成集群的階段 下一次進行集群歸類的階段

文档评论(0)

mkt361 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档