群集演算法课件课件课件.pptVIP

  • 1
  • 0
  • 约4.25千字
  • 约 29页
  • 2026-03-02 发布于河北
  • 举报

第六章群集演算法群集演算法簡介非監督式學習(unsupervised)無明確的分類現象資料間相互的關係就是隱藏的規則無法定義輸入變數與輸出變數不存在最佳化模型Ex:哪些顧客的行為相似、哪些事物總是相伴或先後發生每一個案例的每一個屬性都視為一個維度N個變數就有N維的空間資料間的相似性就是N維空間中每個案例間的相互距離群集演算法經常應用的範圍市場區隔/顧客行為區隔根據既有資料找出顧客間自然的群集關係,用以設定市場區隔策略詐欺預防、呆帳偵測、個人化產品設計、顧客價值管理製程問題排除用以找出在特定製程條件下產品間的品質差異晶圓加工業以群集演算法找出相似的瑕疵分配型樣文字資料採礦以文章的關鍵字出現頻率作為維度的量值,可找出性質類似的文章。文件分類、客服申訴處理、病人病歷分析K-means演算法J.B.MacQueen於1967年正式發表前設式群集演算法,必須事前設定群集的數量,然後根據此設定找出最佳群集結構。原理簡單所以很快的成為商業資料採礦的標準步驟一:設定k值,隨機找出K筆記錄作為初始種子ex:k=3表示要分成三群????????????????K-means演算法步驟二:計算每一筆記錄到K個隨機種子之間的距離,然後比較該筆記錄離哪一個種子最近,就配指派到那一群????????????????K-means演算法步驟三:算出距離之後,可以形成每一個初始群集的邊界,根據邊界內的每一個案例重新計算質量中心,以取代隨機種子成為新的群集中心。????????????????K-means演算法步驟四:最後重新計算每一筆記錄與新的群集中心的距離,並重新分配所屬的群集。群集的邊界開始移動,群集所屬的成員也開始變動。不斷重複步驟三四直到邊界不再變動????????????????K-means存在的問題類別變數無法直接計算距離距離公式是採用歐幾里得法各值平方和再開更號Ex:d歐幾里得(A,B)=sqrt(d性別(A,B)2+d年齡(A,B)2+d薪水(A,B)2數值型態才可計算解決方法虛擬變數Ex:繳費別(年繳,季繳,月繳)(1,0,0)年繳(0,1,0)季繳連續性指派法Ex:繳費別(年繳,季繳,月繳)12(年繳)3(季繳)1(月繳)K-means存在的問題連續數值數量級(scale)使用不同的衡量單位使得距離計算結果相差很多Ex:長度相差10公分or0.1公尺相異單位結合時無法評估距離差一歲與差一公分,誰的距離比較近解決方法標準化:將所有數值轉化為0~1之間的數字(相對比例)確保不同的單位變數間對於距離的貢獻度相同K-means的限制以距離作為相似性的依據群集之間是相鄰而不能重疊非常相似的二群集的邊界案例就非常尷尬極端值容易造成群集中心的偏移剛性群集以距離作為相似的依據,群集之間不可重疊。柔性群集以相對的歸屬機率作為相似的依據,每一個群集範圍是完全重疊且沒有邊界的。Ex:把12星座當成12群集,每個人或多或少都有12星座的影子,11/23的射手座可能有85%的射手+15%的天蠍。E-M演算法期望最大值演算法(ExpectationMaximum)E-M演算法是柔性演算法的代表使用高斯分配(Gaussiandistribution)作為距離函數步驟一:若設定群集數為5,系統隨機選取5個案例作為隨機種子步驟二:每個隨機種子各自擁有相同的預設高斯分配,各個案例依照各隨機種子的高斯分配計算機率並指派給機率最高的種子。E-M演算法步驟三:根據同一群集的案例計算質量中心,利用新的質量中心取代隨機種子成為群集中心,並依照質量中心的週遭案例密佈,重新計算新的機率高斯分配。步驟四:根據新的高斯分配重新計算每個案例與新群集中心的機率值,然後根據機率值重新分配該案例所歸屬的群集,並重新劃分邊界重複步驟三、四,直到各群集的成員不再變動為止。细菌、真菌与食品的制作许多食品的制作都需要细菌和真菌闻闻气球里有什么气味?演示实验‥‥‥周末,妈妈正在厨房准备着一家五口的晚餐。正在柴、米、油、盐、酱

文档评论(0)

1亿VIP精品文档

相关文档