- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
自動集群侦测
自動集群偵測
韓 家 興 陳 君 彥
國立中興大學行銷研究所
自動集群偵測簡介
實際情況中,資料是相當複雜的 (沒有固定的型態、變數多、維度、複雜的結構)
集群分析主要的目的在於將複雜的資料區分為較小部分,讓每部分更容易解釋與簡化
如果區隔適當-則可從各集群中找更簡化的解釋方式
例如:樹木顏色的分類…
資料庫行銷—集群偵測分析
報告流程
兩個實際例子運用的介紹(天文學、軍服尺寸設計)
K-means集群演算法—使用幾何方式的解釋方法
相似性與距離
集群事前的準備工作
單位的一致性
權重設定
其他集群方法
Gaussian mixture高斯演算法
Agglomerative clustering凝聚分析法
Divisive clustering階層式分裂演算法
Case study—報紙編輯區的分類
資料庫行銷—集群偵測分析
搜尋簡化的集群資料 Searching for Islands of Simplicity
資料採礦可分為:
有方向性-有一個應變數(Y),其餘都是自變數(X)
沒有方向性-沒有任何分類好的變數,目的是找出所有變數中,是否存在某些關係
資料的可用性取決於使用者本身
在行銷中的應用上,集群代表了市場區隔的概念
自動集群偵測很少單獨使用,集群之後必須使用其他方法進一部加以分析集群所代表的意義
資料庫行銷—集群偵測分析
實際例子應用— 天文學(一閃一閃亮晶晶散佈圖)
資料庫行銷—集群偵測分析
恆
星
相
對
太
陽
亮
度
的
倍
數
恆星表面溫度
實際例子應用— 天文學(一閃一閃亮晶晶散佈圖)
資料庫行銷—集群偵測分析
實際例子應用— 天文學(一閃一閃亮晶晶散佈圖)
資料庫行銷—集群偵測分析
紅巨星
白矮星
實際例子應用—軍服尺寸設計
資料庫行銷—集群偵測分析
實際例子應用—軍服尺寸設計
資料庫行銷—集群偵測分析
二維或三維時我們還可以用肉眼觀察出集群分類的情形,但當構面數多時,便難以觀察出集群的情形
目的是提供合身的軍服,與減少不同尺寸軍服,降低庫存數量
使用的構面腿長、腰圍、胸圍…
最後分類出一百多種體型量測
K-Means 集群法
K-Means 集群法是1967由J.B.MacQueen提出
最常使用的集群方法
所謂的“K”,將資料分成「幾組」的組數
以下為了簡化,以二維的圖解來解釋其方法(實際情況中往往為多維度的情況)
資料庫行銷—集群偵測分析
K-Means 集群法步驟
步驟一:隨機選取K個點作為種子點
步驟二:將各個數據資料與最接近之種子點分為同一集群(原始集群)
資料庫行銷—集群偵測分析
K-Means 集群法步驟
資料庫行銷—集群偵測分析
步驟三:計算各(原始)集群之中心點
步驟四:新的中心點此時成為新的種子點
Seed 2
Seed 1
Seed 3
K-Means 集群法步驟
資料庫行銷—集群偵測分析
持續重復上述的步驟,直到達到穩定的狀態
K Means的意義
有時集群無法對其結構做出最標準之敘述(市區的定義)
各集群的一內致性高低,可用集群內所有資料之平均距離來做比較
整個方法的過程可使用機械化(例如:電腦軟體)方式來完成,但集群的適用性與可用價值則需要用更主觀的衡量方式
第一次使用K-Means Clustering法時,大部分資料都會落入一個大的集群,而週遭會圍繞著許多小的集群(例如:定義欺騙行為或不良品的衡量)
資料庫行銷—集群偵測分析
相似性與距離
照理來說,相同集群內的資料比其他集群之資料有較高之相似性
測量相似性高低最簡易之方法,為將其資料量化,並在幾何空間中計算比較,但此方法會有以下限制:
許多資料不適合量化或使用幾何向量方式呈現
在幾何中,距離為非加權的,與有些資料屬性不符合
資料庫行銷—集群偵測分析
相似性量測與變數型態
資料庫行銷—集群偵測分析
四種尺度型態(老生常談…)
類別尺度
順序尺度
區間尺度
比例尺度
幾何距離可直接適用於區間尺度與比例尺度的資料上
類別變數與順序變數則需要做轉換才可使用幾何距離。但這些轉換有可能造成資料真實性降低(將冰淇淋編號1-28號…難道56號真的口味接近,128味道就差很遠嗎?)
相似性量測的方法
以下介紹三種方法,前兩種適用於區間尺度與比例尺度的資料,第三種方法適用於類別尺度
兩點之間的幾何距離
兩向量間的角度
曼哈頓距離
資料庫行銷—集群偵測分析
兩點之間的幾何距離
歐幾里得距離
兩點之間的距離近則相似性高
資料庫行銷—集群偵測分析
兩項量間的角度
有時需同時考量一個以上之因素來測量相似性。例子:鯉魚應與沙丁魚、鱈魚、鮪魚屬同集群,而小貓應與獅子、美洲獅、老虎同集群;雖然小貓在體型這個變項上與大魚很接近。
資料庫行銷—集群偵測分析
文档评论(0)