- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
course5集群名分析clusteranalysis
? Outlines 什麼是集群分析? 集群分析的典型應用 集群分析應用實例 什麼是好的集群分析? 資料挖掘對集群分析的要求 集群分析中的資料類型 相異度計算 主要的集群方法 離異值挖掘 ? 什麼是集群分析? 集群 (Cluster: 聚類、簇、分群): 資料對象的集合 所謂集群是指一群人、事、物或資料的組合,這些人、事、物或資料統稱為Object或對象 在同一個集群 (簇) 中的Object彼此相似 不同集群中的Object則相異 集群分析 將一堆Objects分成幾個群,使性質相似的對象自成一個小集群的過程 假設每個對象在許多屬性 (或欄位) 上均有一個觀測分數,有人在某些屬性上分數較高,在其它屬性上分數較低。 每個對象在這些屬性上分數高低的情況,即為該Object在這些欄位上分數的Profiles (輪廓),每個profile在幾何座標圖中以一點表示。 設A和B二個Objects在x和y兩個變數上均有一個分數。Profiles A是由x = 2和y = 3所組成; Profiles B是由x = 3和y = 2所組成。 依據畢氏定理 (The Pythagorean Theorem),直角三角形ABC的斜邊之平方等於其它兩邊平方之和。 由於d之大小是兩個Profile距離的函數,故一般通稱之為距離函數係數 (Distance-Function Coefficient)。 集群是一種無指導的學習︰沒有預先定義的類別編號 集群分析的資料挖掘功能 作為一個獨立的工具來獲得資料分配的情況 作為其他演算法 (如︰特徵和分類) 的預先處理步驟 ?以不同方式對相同集合之資料點做分群 ?集群分析的典型應用 模式識別 空間資料分析 在GIS系統中,對相似區域進行集群,產生主題地圖 檢測空間集群,並給出它們在空間資料挖掘中的解釋 圖像處理 市場研究 WWW 對WEB上的文件進行分類 對WEB日誌的資料進行集群,以發現相同的用戶訪問模式 資訊檢索 集群分析的方法雖多,但下列三個問題乃各方法所共同關心的: 如何以數量來表示事物 (包括人) 和事物之間的相似性 (Similarity)? 如何根據這些相似性指標將類似的個體分成一類 (或一個集群)? 所有事物分類完畢後,對於每一集群的性質應如何描述? ?什麼是好的集群分析? 一個好的集群分析方法會產生高品質的集群 高的群內相似度 低的群間相似度 作為統計學的一個分支,集群分析的研究主要是基於距離的集群;一個高品質的集群分析結果,將取決於所使用的集群方法 集群方法所使用的相似性度量和方法的實施 方法發現隱藏模式的能力 ?資料挖掘對集群分析的要求 可量度性(Scalability) 許多分群的方法運用在少量資料的分群結果很好,但是對於龐大的資料其結果會造成偏差(Bias),因此分群的可量度性是需要的。 處理不同資料類型的能力 數字型,二元類型,類別型/區間型,順序型,比例型等等。 發現任意形狀群體的能力 基於距離的集群演算法往往發現的是球形的集群,然而現實的集群可能是任意形狀的 決定輸入參數的最少領域知識 許多方法都需要輸入參數,然而參數很難決定,尤其是對於高維度資料,這使得集群的結果品質很難控制 處理雜訊資料的能力 對空缺值、離異值、資料雜訊不敏感 對於輸入資料的順序不敏感 某些方法不能將新資料加入現有的群組資料中,它必須對全部資料重新進行群。也有一些方法會受輸入資料順序的影響。 同一個資料集合,以不同的次序提交給同一個演算法,應該產生相似的結果。 高維度 高維度(多屬性)的資料往往比較稀疏或高度扭曲。 基於限制的集群 實際應用需要在不同的限制下進行分群。分群要使每個群組滿足特定限制。 可解釋性和可用性 使用者會希望群組的結果具解釋性、了解性與使用性。 ? 集群分析中的資料類型 許多基於主記憶體式的集群演算法採用以下兩種資料架構: 資料矩陣 (Data Matrix)︰用p個變數來表示n個對象 也叫雙模式矩陣 (Two-mode Matrix),行與列代表不同實體 相異矩陣 (Dissimilarity Matrix)︰存放n個對象兩兩之間的近似性 也叫單模式矩陣 (One-mode Matrix),行和列代表相同的實體 ?相異度計算 許多集群演算法都是以相異矩陣為基礎,如果資料是用資料矩陣形式表示,則往往要將其先轉化為相異矩陣。 相異度d(i,j)的具體計算會因所使用的資料類型不同而不同,常用的資料類型包括︰ 區間變數 二元變數 類別型、順序型和比例型變數 混合類型的變數 區間變數 (Interval-scaled Variables) 區間變數是一個線性尺度下的連續值,比如重量、高度等 選用的度量單位將直接影響集群分析的結果,因此需要實現度量值的標準化,將原來的值轉化為無單位的值,
文档评论(0)