自動集群侦测.pptVIP

下载本文档

2
0
约7.9千字
约 58页
2017-04-09 发布于上海
举报
版权申诉

自動集群侦测.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

自動集群侦测

自動集群偵測韓家興陳君彥國立中興大學行銷研究所自動集群偵測簡介實際情況中，資料是相當複雜的 (沒有固定的型態、變數多、維度、複雜的結構) 集群分析主要的目的在於將複雜的資料區分為較小部分，讓每部分更容易解釋與簡化如果區隔適當－則可從各集群中找更簡化的解釋方式例如：樹木顏色的分類… 資料庫行銷—集群偵測分析報告流程兩個實際例子運用的介紹(天文學、軍服尺寸設計) K-means集群演算法—使用幾何方式的解釋方法相似性與距離集群事前的準備工作單位的一致性權重設定其他集群方法 Gaussian mixture高斯演算法 Agglomerative clustering凝聚分析法 Divisive clustering階層式分裂演算法 Case study—報紙編輯區的分類資料庫行銷—集群偵測分析搜尋簡化的集群資料 Searching for Islands of Simplicity 資料採礦可分為：有方向性－有一個應變數(Y)，其餘都是自變數(X) 沒有方向性－沒有任何分類好的變數，目的是找出所有變數中，是否存在某些關係資料的可用性取決於使用者本身在行銷中的應用上，集群代表了市場區隔的概念自動集群偵測很少單獨使用，集群之後必須使用其他方法進一部加以分析集群所代表的意義資料庫行銷—集群偵測分析實際例子應用— 天文學(一閃一閃亮晶晶散佈圖) 資料庫行銷—集群偵測分析恆星相對太陽亮度的倍數恆星表面溫度實際例子應用— 天文學(一閃一閃亮晶晶散佈圖) 資料庫行銷—集群偵測分析實際例子應用— 天文學(一閃一閃亮晶晶散佈圖) 資料庫行銷—集群偵測分析紅巨星白矮星實際例子應用—軍服尺寸設計資料庫行銷—集群偵測分析實際例子應用—軍服尺寸設計資料庫行銷—集群偵測分析二維或三維時我們還可以用肉眼觀察出集群分類的情形，但當構面數多時，便難以觀察出集群的情形目的是提供合身的軍服，與減少不同尺寸軍服，降低庫存數量使用的構面腿長、腰圍、胸圍… 最後分類出一百多種體型量測 K-Means 集群法 K-Means 集群法是1967由J.B.MacQueen提出最常使用的集群方法　所謂的“K”，將資料分成「幾組」的組數以下為了簡化，以二維的圖解來解釋其方法(實際情況中往往為多維度的情況) 資料庫行銷—集群偵測分析 K-Means 集群法步驟步驟一：隨機選取Ｋ個點作為種子點步驟二：將各個數據資料與最接近之種子點分為同一集群(原始集群) 資料庫行銷—集群偵測分析 K-Means 集群法步驟資料庫行銷—集群偵測分析步驟三：計算各(原始)集群之中心點步驟四：新的中心點此時成為新的種子點 Seed 2 Seed 1 Seed 3 K-Means 集群法步驟資料庫行銷—集群偵測分析持續重復上述的步驟，直到達到穩定的狀態 K Means的意義有時集群無法對其結構做出最標準之敘述(市區的定義) 各集群的一內致性高低，可用集群內所有資料之平均距離來做比較整個方法的過程可使用機械化(例如：電腦軟體)方式來完成，但集群的適用性與可用價值則需要用更主觀的衡量方式第一次使用K-Means Clustering法時，大部分資料都會落入一個大的集群，而週遭會圍繞著許多小的集群(例如：定義欺騙行為或不良品的衡量) 資料庫行銷—集群偵測分析相似性與距離照理來說，相同集群內的資料比其他集群之資料有較高之相似性測量相似性高低最簡易之方法，為將其資料量化，並在幾何空間中計算比較，但此方法會有以下限制：許多資料不適合量化或使用幾何向量方式呈現在幾何中，距離為非加權的，與有些資料屬性不符合資料庫行銷—集群偵測分析相似性量測與變數型態資料庫行銷—集群偵測分析四種尺度型態(老生常談…) 類別尺度順序尺度區間尺度比例尺度幾何距離可直接適用於區間尺度與比例尺度的資料上類別變數與順序變數則需要做轉換才可使用幾何距離。但這些轉換有可能造成資料真實性降低(將冰淇淋編號1-28號…難道56號真的口味接近，128味道就差很遠嗎?) 相似性量測的方法以下介紹三種方法，前兩種適用於區間尺度與比例尺度的資料，第三種方法適用於類別尺度兩點之間的幾何距離兩向量間的角度曼哈頓距離資料庫行銷—集群偵測分析兩點之間的幾何距離歐幾里得距離兩點之間的距離近則相似性高資料庫行銷—集群偵測分析兩項量間的角度有時需同時考量一個以上之因素來測量相似性。例子：鯉魚應與沙丁魚、鱈魚、鮪魚屬同集群，而小貓應與獅子、美洲獅、老虎同集群；雖然小貓在體型這個變項上與大魚很接近。資料庫行銷—集群偵測分析