(陈士杰)相异度计算-联合大学.PPT

下载文档 降价啦

6
0
约6.21千字
约 43页
2017-06-30 发布于天津
举报
版权申诉
保障服务

(陈士杰)相异度计算-联合大学.PPT

1、本文档共43页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

(陈士杰)相异度计算-联合大学

? Outlines 什麼是集羣分析？集羣分析的典型應用集羣分析應用實例什麼是好的集羣分析？資料挖掘對集羣分析的要求集羣分析中的資料類型相異度計算主要的集羣方法孤立點挖掘 ? 什麼是集羣分析？集羣 (Cluster: 聚類、簇): 資料對象的集合所謂集羣是指一群人、事或物的組合，這些人、事或物統稱為Objects 在同一個集羣 (簇) 中的對象彼此相似不同集羣中的對象則相異集羣分析將一堆Object分成幾類，使性質類似的Object自成一個小集羣假設每個Object在許多屬性 (或變數) 上均有一個觀測分數，有人在某些屬性上分數較高，在其它屬性上分數較低。每個Object在這些屬性上分數高低的情況或輪廓，即為該Object在這些變項上分數的Profiles (輪廓)，每個profile在幾何座標圖中以一點表示。設A和B二個Objects在x和y兩個變數上均有一個分數。Profiles A是由x = 2和y = 3所組成; Profiles B是由x = 3和y = 2所組成。依據畢氏定理 (The Pythagorean Theorem)，直角三角形ABC的斜邊之平方等於其它兩邊平方之和。由於d之大小是兩個Profile距離的函數，故一般通稱之為距離函數係數 (Distance-Function Coefficient)。向量乘積係數和距離函數係數均根據二個向量終點所夾的角度來測量此兩點的距離，故兩者的相關性頗高。不過兩者在解釋上有相當大的差異: 向量乘積係數愈大，表示兩個Profiles相似性愈高距離函數係數數值愈小，相似性愈高集羣是一種無指導的學習︰沒有預先定義的類別編號集羣分析的資料挖掘功能作為一個獨立的工具來獲得資料分配的情況作為其他演算法 (如︰特徵和分類) 的預先處理步驟 ? 集羣分析的典型應用模式識別空間資料分析在GIS系統中，對相似區域進行集羣，產生主題地圖檢測空間集羣，並給出它們在空間資料挖掘中的解釋圖像處理經濟學（尤其是市場研究） WWW 對WEB上的文檔進行分類對WEB日誌的資料進行集羣，以發現相同的用戶訪問模式 ? 集羣分析應用實例市場行銷︰幫市場分析人員從客戶基本庫中發現不同的客戶群，從而可以對不同的客戶群採用不同的行銷策略土地使用︰在地球監測資料庫中，發現相同的土地使用區域保險業︰發現汽車保險中索賠率較高的客戶群城市規劃︰根據房子的類型、價值和地理位置對其進行分組地震研究︰將觀測到的震中點沿板塊斷裂帶進行集羣，得出地震高危區集羣分析的方法雖多，但下列三個問題乃各方法所共同關心的: 如何以數量來表示事物 (包括人) 和事物之間的類似性 (Similarity)? 如何根據這些類似性將類似的個體分成一類 (或一個集羣)? 所有事物分類完畢後，對於每一集羣的性質應如何描述? ? 什麼是好的集羣分析？一個好的集羣分析方法會產生高品質的集羣高類內相似度低類間相似度作為統計學的一個分支，集羣分析的研究主要是基於距離的集羣；一個高品質的集羣分析結果，將取決於所使用的集羣方法集羣方法的所使用的相似性度量和方法的實施方法發現隱藏模式的能力 ? 資料挖掘對集羣分析的要求可擴展性(Scalability) 大多數來自於機器學習和統計學領域的集羣演算法在處理數百條資料時能表現出高效率處理不同資料類型的能力數字型；二元類型，分類型/標稱型，序數型,比例標度型等等發現任意形狀的能力基於距離的集羣演算法往往發現的是球形的集羣，其實現實的集羣是任意形狀的用於決定輸入參數的領域知識最小化對於高維資料，參數很難決定，集羣的質量也很難控制處理噪聲資料的能力對空缺值、孤立點、資料噪聲不敏感對於輸入資料的順序不敏感同一個資料集合，以不同的次序提交給同一個演算法，應該產生相似的結果高維度高維度的資料往往比較稀鬆，而且高度傾斜基於限制的集羣找到既滿足限制條件，又具有良好集羣特性的資料分組可解釋性和可用性集羣要和特定的語義解釋和應用相聯繫 ? 集羣分析中的資料類型許多基於內存的集羣演算法採用以下兩種資料架構: 資料矩陣︰用p個變量來表示n個對象也叫二模矩陣，行與列代表不同實體相異度矩陣︰存儲n個對象兩兩之間的近似性也叫單模矩陣，行和列代表相同的實體 ? 相異度計算許多集羣演算法都是以相異度矩陣為基礎，如果資料是用資料矩陣形式表示，則往往要將其先轉化為相異度矩陣。相異度d(i,j)的具體計算會因所使用的資料類型不同而不同，常用的資料類型包括︰區間標度變量二元變量標稱型、序數型和比例標度型變量混合類型的變量區間標度變量區間標度度量是一個粗略線性標度的連續度量，比如重量、高度等選用的度量單位將直接