网站大量收购独家精品文档,联系QQ:2885784924

rock演算法探讨.ppt

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
演算法探指教授中川博士研究生林勇助告大目的分群算法缺先知演算法心得演算法在分性距的不用目的提出料以相似度之概念提出依基及具健性之演算法分群演算法缺分割式分群演算法式分群演算法分割式分群演算法使用合的函式料分成群集其中群集的中心而的何距最小化域最佳化分割式分群演算法用字性料不用性料行料性多每交易目少造成同群集中交易相同目少式分群演算法每料成一群集相似者合至群集用性料式分群演算法何距最小合次小合但相同目不用何距式分群演算法改用但之相似度法反映居之性不同群集之而同群集之先知居函式度函式居相似度函式其中

ROCK演算法探討 指導教授:許中川 博士 研究生:林勇助 報告大綱 動機 目的 傳統分群算法缺點 ROCK預先知識 ROCK演算法 實驗 結論 心得 動機 傳統演算法在分類屬性距離的不適用 目的 提出資料點間以連結為相似度之概念 提出依連結基礎及具強健性之演算法 傳統分群演算法缺點 分割式分群演算法 階層式分群演算法 分割式分群演算法 使用合適的函式將資料點分成k個群集 其中 為群集Ci的中心點,而 為 與 的幾何距離 最小化 E 區域最佳化 分割式分群演算法(續) 適用數字屬性資料 不適用類別屬性資料 行銷資料庫屬性多,每筆交易項目少,造成同群集中,交易相同項目少 階層式分群演算法 每個資料點當成一個群集,將相似者兩兩合併,至k個群集 適用類別屬性資料 階層式分群演算法(續) U={1,2,3,4,5,6} A={1,2,3,5} = (1,1,1,0,1,0) B={2,3,4,5} = (0,1,1,1,1,0) C={1,4} = (1,0,0,1,0,0) D={6} = (0,0,0,0,0,1) AB幾何距離最小( ) -合併 CD次小( ) -合併,但CD並無相同項目 不適用幾何距離 階層式分群演算法(續) 改用 但Jaccard係數僅測兩點之相似度,無法反映鄰居之性質 不同群集{1,2,3}、{1,2,7}之 JC=0.5;而同群集{1,2,3}、{3,4,5}之 JC=0.2 ROCK預先知識 鄰居(neighbors) 連結(links) 標準函式(criterion function) 優度函式(goodness function) 鄰居 相似度函式 其中sim(pi,pj)為pi、pj 之相似度, ,值愈大表愈相似,θ為使用者自定之鄰居門檻值 sim(pi,pj)為公制(Lp)或非公制(領域專家提供) 連結 link(pi,pj)為二資料點pi、pj 之相同鄰居數,值愈大表pi、pj 同一群集之機率愈大 Ex. θ=0.5與 則link({1,2,6},{1,2,7})=5 (因為{1,2,3},{1,2,4},{1,2,5},{1,6,7},{2,6,7}) 標準函式 最大化link(pq,pr),最小化link(pq,ps) 故標準函式如: (X) 上述函式無法防止所有資料點指定成一個單一群集 標準函式(續) 所以標準函式應如下: (O) 其中ni為群集Ci中總資料點數 為Ci中預期總鄰居數[Guha et al.,1997] 為Ci中預期總連結數[Guha et al.,1997] 優度函式 (X) 其中link[Ci,Cj]為群集Ci 與Cj交叉連結數 做為合併兩群集Ci、Cj之參考依據 但如果包含離群值,則可能造成所有群集合併於同一群集 優度函式(續) 其中 為二群集中預期交叉連結個數[Guha et al.,1997] ROCK演算法概觀 由資料庫中隨機載入樣本 將link的方法套用於資料點中 分群完成之樣本用於指派資料庫中其餘資料點於適當已知群集 ROCK演算法 輸入參數:包含n個資料點之資料集S,及預期群集數k 起始時,每一資料點為一群集 計算各點之連結數 為每一個群集i,建立一個區域累堆q[i],包含每一個與群集i之連結數不為零之群集j q[i]中之各群集j依g(i,j)值由大至小排序 ROCK演算法(續) 建立一全域累堆(global heap)Q,包含每一q[i]之優度函式最大值之群集j 每一回合,合併Q中最佳群集j與q[j]中之最佳群集 每當合併即重新運算各區域累堆及全域累堆,包括新形成之群集 當群集數不小於k時,持續合併,此外當所有q[i]=0時亦停止合併 ROCK演算法(續) ROCK時間及空間複雜度 時間 O(n2+nmmma+n2logn) mm為最大鄰居數 ma為平均鄰居數 n為資料點數 空間 O(min{n2, nmmma}) 實驗設計 RO

文档评论(0)

wangsux + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档