- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第十七屆資訊管理暨實務研討會
改良式粒子族群最佳化用於資料分群
莊麗月1 邱國鑫 2 楊正宏 2,3
1 義守大學化學工程系 chuang@.tw
2
國立高雄應用科技大學電子工程 系 tpvuu@.tw
3
稻江科技暨管理學院網路系統學系 chyang@.tw
摘要
資料分群 (data clustering)依據資料集中的特徵 將擁有相同類別的資料歸類成群 ,並
找出各類別的中心點 ,以簡化資料複雜性 。本研究提出改良式 粒子族群最佳化演算法
(Particle Swarm Optimization, PSO)進行資料分群 ,為防止PSO 快速收斂導致中心點落入
區域最佳解 ,本研究結合互補式策略(Complementary)增加粒子多樣性,進而避免粒 子族
群因多次迭代後粒子之間相似度過高而使族群陷入區域最佳解 (CPSO) 。本研究使用六筆
資料 (UCI Repository)進行測試 ,並與相關文獻之演算法做比較,實驗結果表示本研究方
法能較其他方法 找到較短的群集內距離總和與較低的錯誤率 。
關鍵詞:資料分群、粒子 族群最佳化演算法、互補式
1.前言
群 集分析主要是將資料中有相關聯的資料集合一起 [3] ,而所有資料分出來的各個群
合起來即為群集 (Cluster)[1] 。群集分析時並沒有事先指定類別,純粹依資料的相似性來
識別,利用數學函數來運算 ,進而找出中心點,所以視為非監督式學習 (Supervised
learning) 。
分群分為分割式分群法與階層式分群法兩種,分割式分群法是利用離群中心最短距
離來計算,主要找出大小相似且形狀為圓形的群集 ,例如常用 K-means 演算法 [7] 。
K-means 於 1967 年由MacQueen提出,被廣泛應用於分群技術,其原理是設 K個群集
為中心點開始分群,最終將分群的資料分成 K 個集合,其優點是容易且高效率 [2] ,缺
點是群集中心容易受偏移值影響 而落入區域最佳解[8] 。另一種是階層式分群法 ,利用密
集度導向,主要找出任意形狀的群集,例如常用 BIRCH[10] 、Chameleon[5]演算法。本
研究即利用 分割式分群法進行分群,利用離群中心最短距離將資料集中的資料歸屬到所
屬的群中。
本研究使用改良式粒子族群最佳化 ─CPSO 。粒子族群最佳化 (Particle Swarm
Optimization, PSO) [6]是一種以族群搜尋為基礎的演算法,粒子會依自己過去的經驗及
族群共同經驗進行移動,進而快速提升各 粒子的適應值。PSO目前用於以下研究,例如
系統設計、函數最佳化 [9] 、分類、型樣識別、機器人應用、生物系統模擬、排程、決策
制定及路由選擇、神經網路訓練、網路安全、模擬和識別等 。粒子族群最佳化 經過多次
迭代後,粒子與 Gbest 之距離過近時會造成移動距離變 小,導致粒子落入區域最佳解 ,
為改善此問題 ,本研究加入互補式來協助粒子跳脫區域最佳解,藉此增加獲得更佳中心
點的機會 。
本研究使用UCI Repository的六筆真實資料 進行分群測試,資料包含 Crude Oil 、
Contraceptive Method Choice (CMC) 、Wine 、Breast Cancer 、Vowel 與Iris Plants ,利用這
些資料驗證本研究方法是否可以找出每個群的最佳解中心點( )及最低錯誤率。實驗證明
本研究方法能優於其他 文獻所提出的方法(K-means 、NM-PSO 、K-PSO 、K-NM-PSO 、
第十七屆資訊管理暨實務研討會
PSO[4]) ,例如在Iris資料集中本研究能找
文档评论(0)