course5集群名分析clusteranalysis.pptVIP

下载本文档

0
0
约1.1万字
约 72页
2019-01-19 发布于福建
举报
版权申诉

course5集群名分析clusteranalysis.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

course5集群名分析clusteranalysis

? Outlines 什麼是集群分析？集群分析的典型應用集群分析應用實例什麼是好的集群分析？資料挖掘對集群分析的要求集群分析中的資料類型相異度計算主要的集群方法離異值挖掘 ? 什麼是集群分析？集群 (Cluster: 聚類、簇、分群): 資料對象的集合所謂集群是指一群人、事、物或資料的組合，這些人、事、物或資料統稱為Object或對象在同一個集群 (簇) 中的Object彼此相似不同集群中的Object則相異集群分析將一堆Objects分成幾個群，使性質相似的對象自成一個小集群的過程假設每個對象在許多屬性 (或欄位) 上均有一個觀測分數，有人在某些屬性上分數較高，在其它屬性上分數較低。每個對象在這些屬性上分數高低的情況，即為該Object在這些欄位上分數的Profiles (輪廓)，每個profile在幾何座標圖中以一點表示。設A和B二個Objects在x和y兩個變數上均有一個分數。Profiles A是由x = 2和y = 3所組成; Profiles B是由x = 3和y = 2所組成。依據畢氏定理 (The Pythagorean Theorem)，直角三角形ABC的斜邊之平方等於其它兩邊平方之和。由於d之大小是兩個Profile距離的函數，故一般通稱之為距離函數係數 (Distance-Function Coefficient)。集群是一種無指導的學習︰沒有預先定義的類別編號集群分析的資料挖掘功能作為一個獨立的工具來獲得資料分配的情況作為其他演算法 (如︰特徵和分類) 的預先處理步驟 ?以不同方式對相同集合之資料點做分群 ?集群分析的典型應用模式識別空間資料分析在GIS系統中，對相似區域進行集群，產生主題地圖檢測空間集群，並給出它們在空間資料挖掘中的解釋圖像處理市場研究 WWW 對WEB上的文件進行分類對WEB日誌的資料進行集群，以發現相同的用戶訪問模式資訊檢索集群分析的方法雖多，但下列三個問題乃各方法所共同關心的: 如何以數量來表示事物 (包括人) 和事物之間的相似性 (Similarity)? 如何根據這些相似性指標將類似的個體分成一類 (或一個集群)? 所有事物分類完畢後，對於每一集群的性質應如何描述? ?什麼是好的集群分析？一個好的集群分析方法會產生高品質的集群高的群內相似度低的群間相似度作為統計學的一個分支，集群分析的研究主要是基於距離的集群；一個高品質的集群分析結果，將取決於所使用的集群方法集群方法所使用的相似性度量和方法的實施方法發現隱藏模式的能力 ?資料挖掘對集群分析的要求可量度性(Scalability) 許多分群的方法運用在少量資料的分群結果很好，但是對於龐大的資料其結果會造成偏差(Bias)，因此分群的可量度性是需要的。處理不同資料類型的能力數字型，二元類型，類別型/區間型，順序型,比例型等等。發現任意形狀群體的能力基於距離的集群演算法往往發現的是球形的集群，然而現實的集群可能是任意形狀的決定輸入參數的最少領域知識許多方法都需要輸入參數，然而參數很難決定，尤其是對於高維度資料，這使得集群的結果品質很難控制處理雜訊資料的能力對空缺值、離異值、資料雜訊不敏感對於輸入資料的順序不敏感某些方法不能將新資料加入現有的群組資料中，它必須對全部資料重新進行群。也有一些方法會受輸入資料順序的影響。同一個資料集合，以不同的次序提交給同一個演算法，應該產生相似的結果。高維度高維度(多屬性)的資料往往比較稀疏或高度扭曲。基於限制的集群實際應用需要在不同的限制下進行分群。分群要使每個群組滿足特定限制。可解釋性和可用性使用者會希望群組的結果具解釋性、了解性與使用性。 ? 集群分析中的資料類型許多基於主記憶體式的集群演算法採用以下兩種資料架構: 資料矩陣 (Data Matrix)︰用p個變數來表示n個對象也叫雙模式矩陣 (Two-mode Matrix)，行與列代表不同實體相異矩陣 (Dissimilarity Matrix)︰存放n個對象兩兩之間的近似性也叫單模式矩陣 (One-mode Matrix)，行和列代表相同的實體 ?相異度計算許多集群演算法都是以相異矩陣為基礎，如果資料是用資料矩陣形式表示，則往往要將其先轉化為相異矩陣。相異度d(i,j)的具體計算會因所使用的資料類型不同而不同，常用的資料類型包括︰區間變數二元變數類別型、順序型和比例型變數混合類型的變數區間變數 (Interval-scaled Variables) 區間變數是一個線性尺度下的連續值，比如重量、高度等選用的度量單位將直接影響集群分析的結果，因此需要實現度量值的標準化，將原來的值轉化為無單位的值，