阶层式分群法-淡江大学.pptVIP

下载本文档

2
0
约9.5千字
约 69页
2019-03-15 发布于天津
举报
版权申诉

阶层式分群法-淡江大学.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

群集分析 Cluster Analysis 淡江大學資訊管理系所侯永昌 .tw/~ychou .tw/Prof_Hou 簡介群集分析的概念與目的將資料集合中的資料記錄，又稱為資料點，加以分群成數個群集(cluster)，使得每個群集中的資料點間相似程度高於與其它群集中資料點的相似程度主要的目地是分析資料彼此間的相似程度，藉由分析所找到的群集結果，推論出有用、隱含、令人感興趣的特性和現象在群集分析的過程中，並沒有預先指定好的類別資訊，也沒有任何資訊可以表示資料記錄彼此之間是相關的，所以群集分析被視為一個非監督式學習的過程簡介群集分析在資料探勘過程中所扮演的角色資料精簡︰將原本大量的資料加以分群成數個群集，並從每一個群集中挑選具有代表性的資料記錄來進行後續的處理推斷假設的產生︰推斷出所關注資料中可能存在的某些特性或現象。例如︰“年輕人通常年收入較低”、“中年人通常年收入較高” 推斷假設的驗證︰對推斷假設作有效性的驗證。例如︰試圖驗證 “年輕人通常年收入較低，是否也代表其消費能力較低？”此假設性推斷時，可以對於 “年齡”、“年收入” 和 “消費金額” 所描述的資料記錄進行群集分析歸屬預測︰分群結果應用於未知分類之資料記錄，預測資料所歸屬的群集簡介例︰線上購物網站的使用者族群與消費能力簡介群集分析五個主要的循序工作項目資料的表示：找出代表性資料維度來表示資料點相似度的計算與測量：計算資料點間相似的程度分群法的採用：挑選適當的分群演算法評估分群的結果：對群集分析的結果進行評估群集的解釋：領域專家對分群結果做進一步解釋資料的表示將每一資料點利用有限、一致的資料維度表示濾掉與所分析問題無關、偏差、重複的資料維度不適切的資料維度將造成分群結果凌亂、難以從中獲取各群聚的關係與差異相對於 “性別” 和 “地址” 這兩個資料維度，“平均月收入” 與 “年齡” 這兩個資料維度將更能幫助了解各類型之會員族群會員2將可以表示為 21, 26 ，其中21為會員2在 “年齡” 資料維度的資料數值，而26為會員2在 “平均月收入” 資料維度的資料數值相似度的計算與測量衡量資料點間的相似度將決定資料記錄所歸屬的群聚，並影響整個分群的結果相似度測量法是群集分析中最根本的課題相似度的計算與測量的考量資料型態的考量應用範圍的考量資料離散程度與複雜性的考量資料型態的考量連續性資料維度通常利用簡單的空間距離計算公式，透過衡量資料點間距離的遠近來判斷彼此間的相似程度尤拉距離 (Euclidean distance) 資料點 xi = xi1, xi2, …, xik 和資料點 xj = xj1, xj2, …, xjk 之間的尤拉距離： d2 (xi, xj) = = 曼哈頓距離 (Manhattan distance) dM (xi, xj) = = 資料型態的考量尤拉距離與曼哈頓距離在二維空間上的物理意義會員1=20, 20 與會員2=21, 26 之間的尤拉距離與曼哈頓距離分別如下所示 d2 (x1, x2) = ? 6 dM (x1, x2) = = 7 資料型態的考量類別型態資料維度利用字串比對的方式，對於資料數值完全相同時則相似度以1表示，否則以0表示透過專家事先訂定資料數值間的相似度與輔助之計算公式先轉換或對應成連續性的資料數值，再套用距離計算公式來計算其相似度應用範圍的考量除了衡量資料點之間的相似程度以外，群集間的相似程度也是常用的衡量方式應用範圍的考量資料離散程度與複雜性的考量一般相似度計算公式通常對資料點中各資料維度給予相同的重要性，然而這將造成值域(domain)較大的資料維度將左右分群的結果會員A = 20, 20000、會員B = 21, 22000與會員C = 40, 21000 透過尤拉距離的相似度公式計算後，將會認定會員A與會員C相似度較高；用人來判斷，會員A與會員B應該較可能屬於同一個族群分群法的採用有些分群法相當容易受雜訊或偏移值的影響資料維度與資料記錄數量的大小會影響分群法的成效品質與速度的需求常常是矛盾而難以取捨的分割式分群法概念將資料點歸屬到數個互不交集的群集中，讓每一群集中的資料點與該群集之群集中心 (clustering center) 相似程度高於與其它群集中心，企圖使得每個資料點距離它所屬的群集中心的距離偏移值為最小將n個資料點分配k個互不