群集详细分析(ClusterAnalysis).pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* * * * * * * * * * * 分群法在大型資料集合之設計策略(3) 漸進式處理 隨著資料點的加入或移除,動態地更新分群結果 當第一個資料點加入時,此資料點將自成一個群集;接著,對於後續加入的資料點,根據使用者設定之準則,例如:依加入之資料點與群集中心的距離是否低於某一門檻值,決定加入已存在之群集或自成一個群集,直到所有的資料點都處理完畢為止 以資料點陸續移出資料集合而言,一開始資料集合中已存在數個群集,當第一個資料點移出時,根據使用者設定之準則,對所對應之群集調整其群集中心或進行群集合併;直到所有欲移出之資料點都處理完畢為止 * 分群法在大型資料集合之設計策略(4) 漸進式處理所遭遇麻煩 順序相依(order-dependence)的問題 * 平衡式反覆化簡和分群法*(1) 平衡式反覆化簡和分群法(BIRCH) 根據使用者所設定之群集涵蓋範圍,例如群集之半徑,先將資料集合中的資料點以漸進式處理方法分配到許多較小、相似度高的子群集 利用類似聚合式階層分群法的方式,以這些子群集為基本單元,反覆地將其聚合成較大的群集 處理上其利用群集特徵(Clustering Feature, CF)來表示每個子群集,並不直接處理所有的資料點,在記憶體空間的利用上非常有效率 為加速將資料點歸屬到所屬之子群集,其將動態構建出一類似B+樹 (B+ tree) * 平衡式反覆化簡和分群法*(2) * 平衡式反覆化簡和分群法*(3) 群集特徵 是由三個概括性資訊 (summarized information) 所組成,假設一群集Si中包含有N個資料點,則該群集特徵CF被定義為: = 為這些N個點的線性總合,SS = 為N個點的平方和 群集特徵能充分完整地表示一個群集,因為不論是在決定資料點所歸屬的群集上或是在決定群集合併的順序 * 平衡式反覆化簡和分群法*(4) 群集特徵 會員1=20, 20 與會員2=21, 26 的距離在使用者設定之群集涵蓋範圍內,BIRCH先將其形成一個子群集,則此子群集之群集特徵值將計算如下 = = 20+21, 20+26 = 41, 46 SS = = (202+202)+(212+262) = 800+1117 = 1917 ? CF = (2, 41, 46, 1917) * 平衡式反覆化簡和分群法*(5) 群集特徵樹 記錄子群集間的親疏遠近的關係 每一非終端節點 (non-leaf node),記錄所有隸屬之子節點 (children) 的概括性資訊 每一終端節點 (leaf node),則記錄所隸屬之子群集之概括性資訊 一群集特徵樹包含三個參數 非終端節點之分支係數(B):用以指定每個非終端節點所允許包含之最大子節點個數 終端節點之分支係數(L):用以指定每個終端節點所允許包含之最大子群集個數 子群集之門檻值(T):指定子群集所允許之涵蓋範圍,例如:群集半徑 * 平衡式反覆化簡和分群法*(6) 群集特徵樹之建立 資料點加入時,透過類似拜訪B+樹的方式,比對部分的非終端節點,決定資料點所歸屬之終端節點與子群集 當資料點加入到位於終端節點的一子群集時,若造成該子群集的涵蓋範圍超過T,則產生一新的子群集,並將資料點加入此群集且計算此子群集特徵;否則,直接加入此資料點到子群集中,並更新該子群集之群集特徵 若因產生新的子群集,造成終端節點之子群集的數量超過所設定之L,則該終端節點將分裂成兩個,並以相差最遠之子群集當作種子(seed),然後將其他子群集分別歸屬其中;同理,非終端節點進行分裂時,亦相同運作方式 底層子群集之群集特徵的改變,將影響上層終端節點與非終端節點中的群集特徵,資訊將從從底端傳達到樹根 * 平衡式反覆化簡和分群法*(7) BIRCH的運作過程 輸入:一資料集合、非終端節點之分支係數B、終端節點之分支係數L 、門檻值T 輸出:以樹狀結構所表示的群集關係 步驟 1:掃瞄資料集合中的資料點,建立一可以放在記憶體中執行之群集特徵樹。如果群集特徵樹無法載入到記憶體,則增加子群集所允許之T ,並由既有之群集特徵資訊,重新建立一群集特徵樹,以符合記憶體需求 步驟 2:將存在終端節點中包含偏移值的子群集由群集特徵樹中移除,去除偏移值對分群結果的影響 步驟 3:利用聚合法 (AGNES) 處理群集特徵樹中所包含的子群集(只需處理其群集特徵),產生最後之分群結果 * 評估分群的結果 在大多數的分群結果評估上,都是利用二維空間來表現,主要是因為用二維的資料較能夠直接看出分群的結果並進行驗證 * 總結(1) 群集分析在許多應用領域中被廣泛認為是相當有用的工具,一般來講通常包含資料的表示、相似度的計算與測量、分群法的採用、評估分群的結果、群集的解釋等

文档评论(0)

duoduoyun + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档