- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
集群分析clusteranalysis
集群分析Cluster analysis 謝寶煖 2006年5月27日 15位學生的身高和體重 集群分析的基本概念 將性質相近的現象歸為一類,以便在大量複雜的特徵歸類後,找出其所存在的規律性,如經濟現象 是定量研究分類問題的一種多元統計方法 找出同一類中的個體有較大的相似性之間相似度的統計量,以此為依據,採用某種集群方法(cluster method),將所有樣本(或變數)分別集群到不同的類中 High internal (within-cluster) homogeneity High external (between-cluster) heterogeneity ? 類內同質 類間異質 距離和相似係數 研究變數間親疏程度的指標有兩個 距離 指兩個事物距離多遠的測量,通常將每一個樣本看成m維(變數的個數)空間中的一個點,在這m維空間定義點與點之間距離,距離較近的點歸為同一類,距離較遠的點歸入不同的類。 相似係數 指兩個事物距離多近的測量,性質越近的樣本,它們之間的相似係數越接近於1(或-1),而彼此無關的樣本,它們之間的相似係數越接近於零。在進行集群處理時,將比較相似的樣本歸為一類,不怎麼相似的樣本歸為不同的類。 距離與相似係數計算公式的選擇,與資料特徵、測量尺度和集群方法有關。 集群分析的分類對象 Q型集群 也叫樣本(case)集群,是針對樣本進行分類處理。方法是根據樣本有關變數的特徵,將特徵相似的樣本歸為一類,例如在股市模組分析中,根據上市公司的每股收益、每股淨資產、股東權益率、淨資產收益率、淨利潤等五個指標,將股票分為不同的類型,如指標股、一般股等。 R型集群 也叫變數(variable)集群,是以變數為單位進行集群。 分層集群分析 Hierarchical Cluster Analysis 也叫系統集群分析,是集群分析中應用最廣泛的一種方法。 集群過程:把參與集群的樣本(或變數)各視為一類,然後根據兩類之間的距離或相似度逐步合併,直到所有樣本(或變數)合併為一個大類為止。 分層集群分析 可用於樣本集群,也可用於變數集群 分析步驟 選擇分析變數 資料標準化 選擇距離或相似係數的計算公式,計算所有樣本或變數兩兩間的距離或相似係數,產生距離矩陣或相似矩陣。 選擇集群方法,將距離最近的兩個樣本合併為一類。常用集群方法有:最短距離法、最長距離法、重心法、類平均法、離差平方合法等。 分類個數大於1,則繼續前兩個步驟,直到所有樣本歸為一類為止 輸出集群結果和系統集群圖,包括樹型圖和冰柱圖。 根據研究對象的背景知識,按某種分類標準或分類原則,得出最終的分類結果。 分層集群分析 分析>分類>階層集群分析法 分層集群分析 例:研究各種飲料在市場消費的分配規律,共抽取了6個縣市消費的5種飲料有關的指標資料,請確定各種飲料的消費類型。 Cluster1 先出現的階段集群 第一次出現複集群的階段 集群1=集群2=0,表示兩個樣本合併 集群1或集群2中,有一個為0,表示樣本與類的合併 集群1和集群2,都不為0,表示類與類的合併 由組間平均距離連接法,可知6個樣本明顯地分為三類 I:3、5 II:1、2、4 III:6 冰柱圖 樹狀圖 快速基因資料集群分析 也稱為逐步集群或動態群集 開始按照一定方法選取一批凝聚點,其次讓樣本項最近的凝聚點凝聚,形成起始分類,然後按最近距離原則修改不合理的分類,直到合理為止。 適合於大基因資料檔案的Q型集群分析 分析步驟 選擇分析變數 指定集群數目,即要將樣本聚為幾類 選擇K個樣本作為集群的種子,K的最小值為2 ,最大值不超過樣本個數 按照集群種子的距離最小原則,將各觀察值分到所在類中,形成第一次替代的K類。反覆。 輸出集群結果 根據研究對象的背景知識,按某個分類標準或分類原則,得出最終的分類結果。 集群分析 分析>分類>階層集群分析法 澳洲某農莊14年來葡萄生產量,是否可以加以區分為有意義的集群?(可用產量的差距來衡量年度之間的距離) Cluster2 樹狀圖:3群 由階層集群分析結果可知,葡萄生產量可以區分為三個集群: I: 2、5、11、13 ( 11、13、2、5 ) II:1、3、4、6、7、8(1、6、3、8、7、4) III:9、10、12、14(10、14、9、12) 樹狀圖:4群 那麼,該分3群?還是4群呢? Interpretation! 台北捷運公司依兩個站間的距離,將淡水捷運線七大捷運站新店、景美、公館、古亭、火車站、北投、淡水,作分類。 cluster3 老師為評比學生之學科與術科,決定以學科與術科成績為基準,欲將學生分為高、中、低三個等級。 Cluster4 因學科與術科之成績計算方法不同,應先將資料標準化 分析>摘要>描述性統計量 再進行集群分析 變數:標準
文档评论(0)