决策树较适合用来估计离散的变数-国立中兴大学.pptVIP

决策树较适合用来估计离散的变数-国立中兴大学.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
資料庫行銷 尋找分隔 培養整棵樹 測量決策樹 的效度 資料庫行銷 尋找分隔 培養整棵樹 測量決策樹 的效度 資料庫行銷 資料庫行銷 資料庫行銷 資料庫行銷 修正規則 看球賽而且跟朋友出門→喝啤酒 看球賽而且地主隊獲勝而且待在家裡→喝健怡汽水 看球賽而且地主隊輸球而且待在家裡→喝牛奶 大部分的決策樹的分支都只根據一個欄位 缺點:產生過多分支,過多節點,以致每個節點的資料筆數過少,缺乏統計上的代表性,所產生之決策樹較不穩定 * * * * 改善方式:允許根據一個以上的欄位來分支 將各欄位的條件AND在一起,作為分支的條件 * * 傳統決策樹的分支測試建立在單一欄位的測試上,從幾何學角度來看,是將資料做矩形的分隔 但有些資料不適合用單一屬性作矩形分隔 解決方式:將hyperplane傾斜,找出更合適的分隔平面(見下一頁範例) 傾斜的hyperplane其實是由既有欄位所衍生的欄位所做的矩形的分隔 * * * * Neural tree:在每一個節點都用一個小型的類神經網路 優點 比靠單一屬性作矩形分隔更具彈性 比純類神經網路需要較短的訓練時間 缺點 類似類神經網路,產生之結果較不易解讀 * * * * 決策樹在資料研究、分類及計分上具有廣泛的 適用性。 目標是找出清楚明瞭的規則時,決策樹是最佳 選擇。 和其他資料採礦技術相比,決策樹花的資料準 備少。 在利用其他技術前,使用決策樹會讓人有初步 的瞭解。 10. 總結 資料庫行銷 * * * * * * 決策樹是以樹狀圖形為基礎的方法。 由根節點、子節點和葉節點所結合成的。 節點與節點之間有所謂得路徑。 功能強大且相當被受歡迎的分類和預測工具。 主要決策樹是具有規則的(和類神經網路的不同)。而是由每一個路徑所代表的。 規則可以用文字來表答,讓人瞭解。或是轉換為資料庫語言,讓落在特定類別的資料紀錄和搜尋。 可從大量的候選自變數之間的關係到依變數。。。 在某些應用上,分類或預測的準確性是最重要的。 例子:一家郵局可獲得一個模型,準確的預測哪一些人會回應某些行銷優惠。那麼他們也就不會太去在意這個模型是如何或為何在運作。 明確度是最重要的。 例子:人壽保險業,法律規定禁止基於某種變數對保險人有任何歧視。 壽險業著,當接受或拒絕一份保險單時,必須能夠在法庭上證明他們並沒有非法的歧視行為。 同樣的,如果一向貸款申請是因違反了電腦設定的規則『收入<日?0 且目前的貸款為清帳戶3』而被拒絕, 對放款者和借款者而言,都比一套沒有提共決策理由的類神經系統容易接受。 決策樹的功能包含了:分類、評分、估計以及多種形式。 許多不同的演算法可被選為做初步測試。目的是一樣的。。。 所有到達某一個決策樹葉部的資料都已相同的方法來分類。 過程一再地重複,直到資料到達葉部節點(leaf node)。 每一個葉部都有一套獨特的路徑,路徑就是用來分類資料的規則的一種表達方式。 例子:將我們要把蔬菜水果在樹狀圖中做分類時,蘋果、蕃茄、櫻桃的葉部都可被預測為”紅色”, 雖然說頻果可以是綠色、蕃茄黃色和櫻桃黑色的。 換句話說,這是我們所做的決策;採用了「紅色」屬性來歸類。 The tree is now annotated with additional information – the percentage of records in class 1 at each node. Fig. 6-2 clarifies the difference between nodes 17 (52.8%) and 18 (66.9%). Therefore, node 18 is more likely to represent a responder than in Node 17. The proportion of records in the desired class can be used as SCORE, which is more useful than just the classification. A SCORE allows the records to be sorted from most likely to least likely to be members of the desired class.. For some applications, we want to know that actual likelihood of a response from A. Assuming that the pri

文档评论(0)

zhaoxiaoj + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档