- 1、本文档共58页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
自動集群偵測 韓 家 興 陳 君 彥 國立中興大學行銷研究所 自動集群偵測簡介 實際情況中,資料是相當複雜的 (沒有固定的型態、變數多、維度、複雜的結構) 集群分析主要的目的在於將複雜的資料區分為較小部分,讓每部分更容易解釋與簡化 如果區隔適當-則可從各集群中找更簡化的解釋方式 例如:樹木顏色的分類… 報告流程 兩個實際例子運用的介紹(天文學、軍服尺寸設計) K-means集群演算法—使用幾何方式的解釋方法 相似性與距離 集群事前的準備工作 單位的一致性 權重設定 其他集群方法 Gaussian mixture高斯演算法 Agglomerative clustering凝聚分析法 Divisive clustering階層式分裂演算法 Case study—報紙編輯區的分類 搜尋簡化的集群資料 Searching for Islands of Simplicity 資料採礦可分為: 有方向性-有一個應變數(Y),其餘都是自變數(X) 沒有方向性-沒有任何分類好的變數,目的是找出所有變數中,是否存在某些關係 資料的可用性取決於使用者本身 在行銷中的應用上,集群代表了市場區隔的概念 自動集群偵測很少單獨使用,集群之後必須使用其他方法進一部加以分析集群所代表的意義 實際例子應用— 天文學(一閃一閃亮晶晶散佈圖) 實際例子應用— 天文學(一閃一閃亮晶晶散佈圖) 實際例子應用— 天文學(一閃一閃亮晶晶散佈圖) 實際例子應用—軍服尺寸設計 實際例子應用—軍服尺寸設計 二維或三維時我們還可以用肉眼觀察出集群分類的情形,但當構面數多時,便難以觀察出集群的情形 目的是提供合身的軍服,與減少不同尺寸軍服,降低庫存數量 使用的構面腿長、腰圍、胸圍… 最後分類出一百多種體型量測 K-Means 集群法 K-Means 集群法是1967由J.B.MacQueen提出 最常使用的集群方法 所謂的“K”,將資料分成「幾組」的組數 以下為了簡化,以二維的圖解來解釋其方法(實際情況中往往為多維度的情況) K-Means 集群法步驟 步驟一:隨機選取K個點作為種子點 步驟二:將各個數據資料與最接近之種子點分為同一集群(原始集群) K-Means 集群法步驟 步驟三:計算各(原始)集群之中心點 步驟四:新的中心點此時成為新的種子點 K-Means 集群法步驟 K Means的意義 有時集群無法對其結構做出最標準之敘述(市區的定義) 各集群的一內致性高低,可用集群內所有資料之平均距離來做比較 整個方法的過程可使用機械化(例如:電腦軟體)方式來完成,但集群的適用性與可用價值則需要用更主觀的衡量方式 第一次使用K-Means Clustering法時,大部分資料都會落入一個大的集群,而週遭會圍繞著許多小的集群(例如:定義欺騙行為或不良品的衡量) 相似性與距離 照理來說,相同集群內的資料比其他集群之資料有較高之相似性 測量相似性高低最簡易之方法,為將其資料量化,並在幾何空間中計算比較,但此方法會有以下限制: 許多資料不適合量化或使用幾何向量方式呈現 在幾何中,距離為非加權的,與有些資料屬性不符合 相似性量測與變數型態 四種尺度型態(老生常談…) 類別尺度 順序尺度 區間尺度 比例尺度 幾何距離可直接適用於區間尺度與比例尺度的資料上 類別變數與順序變數則需要做轉換才可使用幾何距離。但這些轉換有可能造成資料真實性降低(將冰淇淋編號1-28號…難道56號真的口味接近,128味道就差很遠嗎?) 相似性量測的方法 以下介紹三種方法,前兩種適用於區間尺度與比例尺度的資料,第三種方法適用於類別尺度 兩點之間的幾何距離 兩向量間的角度 曼哈頓距離 兩點之間的幾何距離 歐幾里得距離 兩點之間的距離近則相似性高 兩項量間的角度 有時需同時考量一個以上之因素來測量相似性。例子:鯉魚應與沙丁魚、鱈魚、鮪魚屬同集群,而小貓應與獅子、美洲獅、老虎同集群;雖然小貓在體型這個變項上與大魚很接近。 曼哈頓距離 算法有如紐約曼哈頓市區的方形格子的型態 在幾何上,曼哈頓距離是行經所有變數軸之和。(有時此法較歐幾里得距離好用,因為距離不需平方,所以不會因為一個構面(變項)的小小差異因為平方而造成對總距離有主導性的影響) 量測相似性的共同特性 當資料是類別尺度時,幾何方法並非最好,較好的方法是資料間重疊的程度 將所有的資料是一個範圍與一個範圍的比較是否相配 衡量所有變數相符的比例 集群的事前的準備工作 單位的一致性(Scaling for consistency) 若欲以幾何距離量測相似性,須先將資料轉換成同一單位基準,以下有三種常用方式: 常態化(
您可能关注的文档
最近下载
- 国家森林公园总体规划规范.doc VIP
- Unit 5 The colourful world Part C Reading time大单元教学设计 人教PEP版三年级英语上册2024.pdf
- 2024年疾控大学习全球预防接种进展答案.docx VIP
- 《体教融合文献综述》.docx VIP
- 2018年国家公务员考试《公安专业科目》真题及解析.pdf VIP
- 古代汉字对外传播史.doc
- 采访课件模板.pptx VIP
- 三九控制法——欧博企管.ppt VIP
- GBT 50034-2024 建筑照明设计标准.docx VIP
- 人教PEP五年级上册英语《Unit 4 Read and write 》教学课件.pptx
文档评论(0)