階層式叢集分析法.pptVIP

下载本文档

6
0
约4.21千字
约 36页
2017-08-09 发布于重庆
举报
版权申诉

階層式叢集分析法.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

階層式叢集分析法.ppt

資料探勘第二單元資料探勘的技術與工具叢集分析之探勘本周綱要叢集分析法的基本概念叢集分析法的技術階層式叢集分析法分割式叢集分析法其他叢集分析法叢集分析法的基本概念叢集分析法的主要目的是將一群擁有相異性質的資料 (個體)，區隔為數個同質性較高的資料群體 (叢集) 何謂叢集分析法叢集分析法的特性叢集分析法與分類法分類法分群方式，為擁有事先定義好的群組分群時再依每個資料最適合哪個群組，將資料分配至已經事先定義好的群組中叢集分析法無任何事先定義好的群組群組的特性，需視欲將資料分為幾群或視資料的屬性而定。一種動態的分群資料分析法叢集分析法的進行步驟樣式的描述 (包括特徵的選擇或萃取) 樣式間的相似度計算分群資料的摘要 (視實際情況決定是否需要進行此步驟) 輸出的評估 (視實際情況決定是否需要進行此步驟) 叢集分析法的應用領域叢集分析法在商業上的應用顧客分群銀行業方面，可以利用叢集分析法中的離群值分析，來判別信用卡持卡人的消費是否與其平常的消費型態有所不同，藉以降低銀行與持卡人的風險與損失叢集分析法在醫學上的應用判斷病症的輔助工具叢集分析法在網路上的應用網頁的內容分析叢集分析法在生物領域上的應用動物或植物進行分群相似度的衡量 a. 連續或區間數值的相似度衡量 a.1. 標準化先計算變數的平均絕對差異值計算每個數值的分數可將區間數值標準化，再利用標準化後的值進行相似度衡量，較不易產生偏差的值。相似度的衡量 a.2. 相似度衡量方法 a.2.1. 歐幾里德距離 a.2.2. 曼哈頓距離 a.2.3. Minkowski距離相似度的衡量 a.2.4. 加權式距離衡量方式 a.2.5. MND距離衡量法 NN(a,b)為對b而言, 比a到b距離近的鄰居數目(包含b) 相似度的衡量 a.2.6. 概念性叢集之相似度衡量作業: 利用以下的相似度衡量法計算甲與乙的距離1. 歐幾里德距離 2. 曼哈頓距離3. 加權式距離衡量方式(權重: 年齡0.1, 身高0.4, 體重0.4,成績0.1) 相似度的衡量 b. 其他類型值之相似度衡量 b.1. 名目變數的相似度計算範例相似度=0.25 相似度的衡量 b.2. 二元變數值之相似度衡量方法沿用名目變數相似度計算方式範例相似度=3/5=0.6 相似度的衡量 b.3. 等級變數之相似度衡量方法標準化為0～1之間的數值範例之後再採用歐幾里德、曼哈頓或Minkowski其中一種來進行距離的計算斯皮爾曼等級相關係數叢集分析法的技術叢集分析法技術的分類階層式叢集分析法主要透過分類樹狀圖的建立可再依其進行的方式分為聚合式與分裂式分割式叢集分析法分割式叢集分析法為目前進行叢集分析的主流方式其他叢集分析法的技術以密度為基礎的叢集分析法──DBSCAN演算法以方格為基礎的叢集分析法──STING演算法類神經網路叢集分析法以機率為基礎的叢集分析法──EM演算法分析離群值的離群分析法影響叢集分析法技術的因素聚合或分裂單一特性或多特性明確的叢集或模糊的叢集事先決定或隨機決定遞增或非遞增階層式叢集分析法階層式叢集分析法聚合式叢集分析法由樹狀分類圖中的分枝一直進行到根部的叢集分析法，亦可說是一種由下到上的叢集分析法演算法步驟一：將n個資料自己分為一叢集，因此一開始將會有n個叢集步驟二：計算叢集之間的距離，並加以排序步驟三：選擇兩個最近的叢集，聚為一個新的叢集步驟四：將步驟三的新叢集與其他的叢集重新計算距離，更新叢集間的距離，新的叢集距離的代表值，依照不同的叢集方法 (單一鏈結、完全鏈結) 步驟五：重複步驟三、四次步驟六：直到所有的叢集都聚在同一叢集中，即結束階層式叢集分析法單一鏈結法兩個資料間新的距離定義為兩個叢集之間的最小距離完全鏈結法兩個資料間新的距離定義為兩個叢集之間的最大距離分割式叢集分析法 k-means演算法將n個資料分至k個叢集中，最後達成一個最佳化，也就是每一群之間的資料是最相似的，而群與群之間的相似度則是最小的衡量相似度的基準在於求出每一群資料的平均值 (也就是所謂的重心) 演算法步驟一：隨機選定欲進行叢集的資料中k個資料，最初以這k個資料為各叢集的起始重心步驟二：將剩下的每一個資料分配至最近的重心，聚為同一個叢集步驟三：以目前每一個叢集的資料為主，重新計算每一個叢集的平均值，找出新的重心步驟四：如果未符合收斂的基準，則至步驟二再執行一次演