资料挖掘期末报告.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
资料挖掘期末报告

資料挖掘期末報告 A genetic approach to the automatic clustering problem 教授:雷祖強 學生:林嘉韋 簡報大綱 摘要 引言 基因分群演算法 啟發式規劃求最佳解 實證 結論 心得與建議 摘要 傳統的方法上,例如:K-means algorithm ,分群的求解問題通常需要一個初始的群數,但不幸的,實際情況下群數往往是無法事先得知的。 本文提出以基因演算法來解決分群的問題。此演算法適合將資料分成緊密的完整群落。 演算法又分兩種方式:一種為藉由人為給定的參數w來進行分群;另一種為自動的啟發式最佳分群方式。 引言 群聚方法基本可分為兩大類:階層式與非階層式;階層式可進一步的分為凝聚法與分裂法,非階層式以K-means algorithm 為最重要。 雖然K-means algorithm 在許多實際應用的求解問題上是成功的,但某些情況下可能會陷入一個局部最佳解而無法收斂。 因此,本文提出了許多種能夠提供全域最佳解的演算法,例如分枝界限法、模擬退火法、單一連結演算法以及最近鄰法法等。 引言(續) 基因演算法是一個搜尋最佳解的好方法。本文提出利用基因演算法來分群,希望透過基因演算法來得到最適當的群數和結果。 此外,啟發式規劃應用於選擇一個好的分群上。在進行基因演算法之前,採用單一連結法來將原本的大型資料進行簡化的工作。 基因分群演算法 有n個物件分別為 ,假設每個物件皆有特徵值p,因此 。第一階段為最近鄰法,包括以下步驟 Step1:For each object Oi, find the distance between Oi and its nearest neighbor. That is, Step2:Compute , the average of the nearest-neighbor distances by using Eq. (1) as follows: 基因分群演算法(續) Step3:View the n objects as nodes of a graph. Compute the adjacency matrix Anxn as follows: Step4:Find the connected components of this graph. Let the data sets represented by these connected components be denoted by B1, B2,…, Bm and the center of each set be denoted by Vi for 1 = I = n. 基因分群演算法(續) 許多的物件會被分到Bi群,所有的群數m必定少於原本的物件數n。 第一階段的最近鄰法降低了第二階段的計算時間,因此得知此演算法處理大型資料是有效率的。 基因演算法在透過初始化步驟後,再藉由不斷的反覆迭代來進行演算,描述如下: 基因分群演算法(續) Initialization step:每個族群的染色體是隨機產生的,長度為m。若資料Bi被歸到群落Cj,其中心Sj和Cj的大小將以公式(3)和(4)重新再計算,當Bi被包含在Cj中時 基因分群演算法(續) Reproduction phase:定義 來表示群落Ci內的距離, 表示群落Ci和整個資料中的群落之間的距離。以下兩個公式表示 藉由以上公式可得到一適應值函數 每代染色體在經過適應函數的計算過後,可藉由俄羅斯輪盤法來決定染色體留存與否。 基因分群演算法(續) 下圖是一個實際應用的例子,並計算其適應值函數 基因分群演算法(續) 基因分群演算法(續) Crossover phase:交配的過程中,假定兩個隨機變數p和q,且pq,在染色體R中p的位置和q的位置將會互換,其目的在於藉由交換部份染色體以達成創造新個體之目的。 Mutation phase:在突變的機制中,每個染色體的改變是由1變0或者0變1,其目的為藉由改變染色體內容以突破先天限制的方式。 實證分析 實證分析中,基因演算法的參數設定如下:群體的大小50、交配率50%、突變率5%、100世代。 第一個資料集被分為包含三群的點位資料,由Fig.2(a)可看出,三群的點位資料分別是100、200和200

您可能关注的文档

文档评论(0)

130****9768 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档