- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
资料分类性之研究
資料分類性之研究
指導教授: 陳彥良博士
撰寫人: 許昌齡
問題的說明與定義
分類法(Classification)是將已給定的資料集合,依資料特性作適當分析,並期能以學習所得分類規則為依據,以提供未來作預測分類之重要依據。分類是一個廣泛學習的問題,主要在統計學、機器學習、專家系統和神經網路等領域。以屬性分類資料庫,例如以顧客特性為商品分類。
處理分類與一般資料挖掘方法一樣須考慮演算法的效率和延展性(scalabi-lity),處理關係和複雜的型態資料,如全球的資訊系統,或與資料類型的種種有關的問題,處理雜值和不完全的資料正確度,挖掘資料庫中不同類別的知識,資料挖掘的結果表達和視覺表現。
評估分類方法的良莠如以下之量測標準[Han Kamber2000]:
預測的正確度。
速度和延展性:建造模型的時間及使用模型的時間。
健全性(robust):處理雜值和缺值的能力。
延展性:有效率處理大型資料庫。
可解釋性:透過這模型所能了解和洞察的水準。
規則的良善:決策樹尺寸及分類規則的緊密度。
應用
分類法廣泛地應用在許多領域。例如市場分析領域,信用卡中的信用評等;決定顧客購買模式,什麼類型的顧客買什麼產品;預測顧客購買行為,依顧客購買率或回應來分類;自動商品分類等。應用在競爭分析領域,如把顧客歸類,並以此類別基礎訂定價格政策[Han 2000]。
目前的研究現況,有那些議題已經被討論了,結果如何
早期決策樹為主的分類方法,如ID3[Quinlan79],C4.5[Quinlan93]已經在這領域造成重大的影響。自此後陸續的研究在於解決下列所提議題。
屬性選擇法
如何選擇測試的屬性,選擇那個最靠近完美分割的屬性,在建立決策樹時,希望能夠使節點測試的動作少,使每個葉節點內的每個例子類別都相同,這樣樹也會變得比較小。
在這裡介紹三種使用資訊理論的屬性選擇法,分別是 information gain法,gain ratio法,以及以距離為基礎的distance-based法。
此外尚有許多其他方法,Gini屬性選擇法,卡方檢定屬性選擇法,G統計,其他如多屬性條件屬性選擇法採取二階段多屬性淬取可以在大型資料庫中增進產生規則的效率。在許多問題上Mingers[Mingers89]提供一個在幾個屬性選擇法有效的實驗分析。
information gain法
由 Quinlan 於1979年首先提出,以資訊理論 (information theorem)為基礎,它傾向選出值很多種,每個值的例子都不多的那種屬性,這是一種偏見(bias)。且所選出來的屬性和類別不相關,如果測試集合裡有雜訊的話,還有可能會使產生出來的決策樹看起來正常,但實際上卻不正確的情形出現。
gain ratio法
Quinlan 於1986年修改了 ID3決策樹裡的information gain法,對測試屬性的資訊做正規化,稱為 gain ratio,正規化的動作就可以減少 information gain的偏見。它也有問題存在,式子的分母可能為零,如果 information gain不大,有時可能就會使 gain ratio 變很大,錯使我們去選用這屬性。
distance-based法
為了解決上面所說的 gain ratio 屬性選擇法的兩項問題,Mantaras[Mantaras91]提出以距離為基礎的的屬性選擇法。將經由某一個屬性測試後分出的一組子集合稱為一個分割,由類別所分出的一組子集合稱為正確分割。所有的分割裡離正確分割正規化距離最小的分割,其相對應的屬性,就是我們選擇的屬性,可以產生出比 gain ratio 屬性選擇法更小的決策樹。
決策樹的超適(overfitting)問題
發生這種問題原因在於演算法在產生決策樹的過程中選用了不相干的屬性來對訓練集合做測試,由於集合裡有雜訊存在或者太小,所以在這種情況經由決策樹下找到的假設(hypothesis)是不正確的,這種問題稱為超適。產生超適的原因有兩個,第一個是屬性太多,有些選用到和類別不相關的屬性。第二個原因是偏見 (bias),每個屬性選擇演算法都有自己的偏好,有可能找到演算法偏好,但和類別不相關的屬性。
如何避免分類中的超適
避免超適方法:第一種為修剪(Pre-prune)採及早停止(Stop earlier)這棵樹生長方式,運用一個統計門檻值如卡方或gain等,估計是否分裂某節點。第二種為後修剪(Post-prune)即允許超適合然後修剪這棵樹,例如CART使用成本複雜度修剪,並使用一個分離的例子集合來評價樹後修剪的節點的效用。第三種為隨時評估正在使用的偏見,動態地選取更合適的偏見,以面對不斷湧入的訓練資料。
而決定最後正確的樹尺寸方法有三種[Han 2000]: 第一種為分離訓練集合和測驗集合或者
文档评论(0)