集群的基本概念与集群(53页)摘要.ppt

集群分析 Cluster analysis 謝寶煖 2006年5月27日 15位學生的身高和體重 集群分析的基本概念 將性質相近的現象歸為一類,以便在大量複雜的特徵歸類後,找出其所存在的規律性,如經濟現象 是定量研究分類問題的一種多元統計方法 找出同一類中的個體有較大的相似性之間相似度的統計量,以此為依據,採用某種集群方法(cluster method),將所有樣本(或變數)分別集群到不同的類中 High internal (within-cluster) homogeneity High external (between-cluster) heterogeneity ? 類內同質 類間異質 距離和相似係數 研究變數間親疏程度的指標有兩個 距離 指兩個事物距離多遠的測量,通常將每一個樣本看成m維(變數的個數)空間中的一個點,在這m維空間定義點與點之間距離,距離較近的點歸為同一類,距離較遠的點歸入不同的類。 相似係數 指兩個事物距離多近的測量,性質越近的樣本,它們之間的相似係數越接近於1(或-1),而彼此無關的樣本,它們之間的相似係數越接近於零。在進行集群處理時,將比較相似的樣本歸為一類,不怎麼相似的樣本歸為不同的類。 距離與相似係數計算公式的選擇,與資料特徵、測量尺度和集群方法有關。 集群分析的分類對象 Q型集群 也叫樣本(case)集群,是針對樣本進行分類處理。方法是根據樣本

文档评论(0)

1亿VIP精品文档

相关文档