- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
階層式叢集分析法.ppt
資料探勘第二單元 資料探勘的技術與工具 叢集分析之探勘 本周綱要 叢集分析法的基本概念 叢集分析法的技術 階層式叢集分析法 分割式叢集分析法 其他叢集分析法 叢集分析法的基本概念 叢集分析法的主要目的是將一群擁有相異性質的資料 (個體),區隔為數個同質性較高的資料群體 (叢集) 何謂叢集分析法 叢集分析法的特性 叢集分析法與分類法 分類法 分群方式,為擁有事先定義好的群組 分群時再依每個資料最適合哪個群組,將資料分配至已經事先定義好的群組中 叢集分析法 無任何事先定義好的群組群組的特性,需視欲將資料分為幾群或視資料的屬性而定。 一種動態的分群資料分析法 叢集分析法的進行步驟 樣式的描述 (包括特徵的選擇或萃取) 樣式間的相似度計算 分群 資料的摘要 (視實際情況決定是否需要進行此步驟) 輸出的評估 (視實際情況決定是否需要進行此步驟) 叢集分析法的應用領域 叢集分析法在商業上的應用 顧客分群 銀行業方面,可以利用叢集分析法中的離群值分析,來判別信用卡持卡人的消費是否與其平常的消費型態有所不同,藉以降低銀行與持卡人的風險與損失 叢集分析法在醫學上的應用 判斷病症的輔助工具 叢集分析法在網路上的應用 網頁的內容分析 叢集分析法在生物領域上的應用 動物或植物進行分群 相似度的衡量 a. 連續或區間數值的相似度衡量 a.1. 標準化 先計算變數的平均絕對差異值 計算每個數值的 分數 可將區間數值標準化,再利用標準化後的值進行相似度衡量,較不易產生偏差的值。 相似度的衡量 a.2. 相似度衡量方法 a.2.1. 歐幾里德距離 a.2.2. 曼哈頓距離 a.2.3. Minkowski距離 相似度的衡量 a.2.4. 加權式距離衡量方式 a.2.5. MND距離衡量法 NN(a,b)為對b而言, 比a到b距離近的鄰居數目(包含b) 相似度的衡量 a.2.6. 概念性叢集之相似度衡量 作業: 利用以下的相似度衡量法計算甲與乙的距離1. 歐幾里德距離 2. 曼哈頓距離3. 加權式距離衡量方式(權重: 年齡0.1, 身高0.4, 體重0.4,成績0.1) 相似度的衡量 b. 其他類型值之相似度衡量 b.1. 名目變數的相似度計算 範例 相似度=0.25 相似度的衡量 b.2. 二元變數值之相似度衡量方法 沿用名目變數相似度計算方式 範例 相似度=3/5=0.6 相似度的衡量 b.3. 等級變數之相似度衡量方法 標準化為0~1之間的數值 範例 之後再採用歐幾里德、曼哈頓或Minkowski其中一種來進行距離的計算 斯皮爾曼等級相關係數 叢集分析法的技術 叢集分析法技術的分類 階層式叢集分析法 主要透過分類樹狀圖的建立 可再依其進行的方式分為聚合式與分裂式 分割式叢集分析法 分割式叢集分析法為目前進行叢集分析的主流方式 其他叢集分析法的技術 以密度為基礎的叢集分析法──DBSCAN演算法 以方格為基礎的叢集分析法──STING演算法 類神經網路叢集分析法 以機率為基礎的叢集分析法──EM演算法 分析離群值的離群分析法 影響叢集分析法技術的因素 聚合或分裂 單一特性或多特性 明確的叢集或模糊的叢集 事先決定或隨機決定 遞增或非遞增 階層式叢集分析法 階層式叢集分析法 聚合式叢集分析法 由樹狀分類圖中的分枝一直進行到根部的叢集分析法,亦可說是一種由下到上的叢集分析法 演算法 步驟一:將n個資料自己分為一叢集,因此一開始將會有n個叢集 步驟二:計算叢集之間的距離,並加以排序 步驟三:選擇兩個最近的叢集,聚為一個新的叢集 步驟四:將步驟三的新叢集與其他的叢集重新計算距離,更新叢集間的距離,新的叢集距離的代表值,依照不同的叢集方法 (單一鏈結、完全鏈結) 步驟五:重複步驟三、四 次 步驟六:直到所有的叢集都聚在同一叢集中,即結束 階層式叢集分析法 單一鏈結法 兩個資料間新的距離定義為兩個叢集之間的最小距離 完全鏈結法 兩個資料間新的距離定義為兩個叢集之間的最大距離 分割式叢集分析法 k-means演算法 將n個資料分至k個叢集中,最後達成一個最佳化,也就是每一群之間的資料是最相似的,而群與群之間的相似度則是最小的 衡量相似度的基準在於求出每一群資料的平均值 (也就是所謂的重心) 演算法 步驟一:隨機選定欲進行叢集的資料中k個資料,最初以這k個資料為各叢集的起始重心 步驟二:將剩下的每一個資料分配至最近的重心,聚為同一個叢集 步驟三:以目前每一個叢集的資料為主,重新計算每一個叢集的平均值,找出新的重心 步驟四:如果未符合收斂的基準,則至步驟二再執行一次演
文档评论(0)