Chapter6群集分析(ClusterAnalysis)课件.ppt

  1. 1、本文档共75页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Chapter 6 群集分析 (Cluster Analysis) 內容概要 6.1 簡介 6.2 資料的表示 6.3 相似度的計算與測量 6.4 分群法的採用 6.5 分割式分群法 6.6 非分割式分群法 6.7 分群法在大型資料集合之設計 6.8 評估分群的結果 6.1簡介(1) 群集分析的概念與目的 將資料集合中的資料記錄,又稱為資料點,加以分群成數個群集(cluster),使得每個群集中的資料點間相似程度高於與其它群集中資料點的相似程度 主要的目地是分析資料彼此間的相似程度,藉由分析所找到的群集結果,推論出有用、隱含、令人感興趣的特性和現象 在群集分析的過程中,並沒有預先指定好的類別資訊,也沒有任何資訊可以表示資料記錄彼此之間是相關的,所以群集分析(又稱資料切割)被視為一個非監督式學習的過程 簡介(2) 群集分析在資料探勘過程中所扮演的角色 資料精簡 將原本大量的資料加以分群成數個群集,並從每一個群集中挑選具有代表性的資料記錄來進行後續的處理 推斷假設的產生 推斷出所關注資料中可能存在的某些特性或現象 “年輕人通常年收入較低”、“中年人通常年收入較高” 推斷假設的驗證 對推斷假設作有效性的驗證 試圖驗證 “年輕人通常年收入較低,是否也代表其消費能力較低?”此假設性推斷時,可以對於 “年齡”、“年收入” 和 “消費金額” 所描述的資料記錄進行群集分析 歸屬預測 分群結果應用於未知分類之資料記錄,預測資料所歸屬的群集 簡介(3) 線上購物網站的使用者族群與消費能力 簡介(4) 群集分析應用領域 交易行為分析 了解各類型使用者的行為模式 空間資料分析 幫助使用者自動化分析圖像資料庫所產生的影像資料 ,了解感興趣的特性和現象 文件管理 將文件加以分門別類,幫助文件資料的管理和使用 簡介(5) 群集分析五個主要的循序工作項目 資料的表示:找出代表性資料維度來表示資料點 相似度的計算與測量:計算資料點間相似的程度 分群法的採用:挑選適當的分群演算法 評估分群的結果:對群集分析的結果進行評估 群集的解釋:應用領域的專家對分群結果做進一步解釋 6.2 資料的表示 將每一資料點利用有限、一致的資料維度表示 濾掉與所分析問題無關、偏差、重複的資料維度 不適切的資料維度將造成分群結果凌亂、難以從中獲取各群聚的關係與差異 相對於 “性別” 和 “地址” 這兩個資料維度,“平均月收入” 與 “年齡” 這兩個資料維度將更能幫助了解各類型之會員族群 會員2將可以表示為 21, 26 ,其中21為會員2在 “年齡” 此資料維度的資料數值,而26為會員2在 “平均月收入” 此資料維度的資料數值 6.3 相似度的計算與測量 衡量資料點間的相似度將決定資料記錄所歸屬的群聚,並影響整個分群的結果 相似度測量法是群集分析中最根本的課題 相似度的計算與測量的考量 資料型態的考量 應用範圍的考量 資料離散程度與複雜性的考量 6.3.1 資料型態的考量(1) 連續性資料維度 通常利用簡單的空間距離計算公式,透過衡量資料點間距離的遠近來判斷彼此間的相似程度 尤拉距離 (Euclidean distance) 資料點 xi = xi1, xi2, …, xik 和資料點 xj = xj1, xj2, …, xjk 之間的尤拉距離: d2 (xi, xj) = = ( ) 曼哈頓距離 (Manhattan distance) dM (xi, xj) = = 資料型態的考量(2) 尤拉距離與曼哈頓距離在二維空間上的物理意義 會員1=20, 20 與會員2=21, 26 之間的尤拉距離與曼哈頓距離分別如下所示 d2 (x1, x2) = ? 6 dM (x1, x2) = = 7 資料型態的考量(3) 類別型態資料維度 利用字串比對的方式,對於資料數值完全相同時則相似度以1表示,否則以0表示 透過專家事先訂定資料數值間的相似度與輔助之計算公式 先轉換或對應成連續性的資料數值,再套用距離計算公式來計算其相似度 6.3.2 應用範圍的考量(1) 資料點之間的相似程度 群集間的相似程度 應用範圍的考量(2) 6.3.3 資料離散程度與複雜性的考量 一般相似度計算公式通常對資料點中各資料維度給予相同的重要性,然而這將造成值域 (domain) 較大的資料維度將左右分群的結果 會員A = 20, 20000、會員B = 21, 22000與會員C = 40, 21000 透過尤拉距離的相似度公式計算後,將會認定會員A與會員C相似度較高;用人來判斷,會員A與會員B應該較可能屬於同一個族群 6.4 分群法的採用 分群法的種

文档评论(0)

xuefei111 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档