建立預測模型.ppt

下载文档 降价啦

3
0
约2.83万字
约 80页
2017-12-15 发布于天津
举报
版权申诉
保障服务

建立預測模型.ppt

1、本文档共80页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

建立預測模型

Therefore, except for the root node, features in a classification tree are not evaluated on the entire set of instances. 因此，除了在根節點以外，在其他節點並不是用全部的資料計算information gain The information gain of a feature depends on the set of instances against which it is evaluated, so the ranking of features for some internal node may not be the same as the global ranking. 一個變數的information gain是多少跟是哪些資料用來計算IG有關，所以在決策內的節點計算變數的排序，跟在根節點計算變數的排序未必相同 Example: Addressing the Churn Problem with Tree Induction * * 非監督式：Equal-Width、Equal-Frequency、監督式：Entropy-based * * * YES NO 是類別值頭方形圓形身體長方形橢圓形身體顏色黑色白色 * * * 的p(c_i│D)為在D節點上c_i類別值所占的比例，此值會介於零到一之間，值越小代表在D節點時較能有效分辨出類別值；相反的，若是值越大代表在D節點時各類別值分布的越平均。 * 選擇IG大的作為分支，接著下去繼續算attribute的IG值，樹一直長下去。當決策樹模型建置完成，為了避免現有資料的類別值本身就是錯的、資料筆數過少等問題，而產生模型過適(overfitting)，通常會利用悲觀錯誤率(pessimistic error rate)對決策樹模型進行修剪。第五章將進行講解。 * 離散化，找切割點 * 這邊的例子又會回到之前紐約市的churn rate * 這邊的例子又會回到之前紐約市的churn rate * 視覺區段　分類樹是如何分區實例空間實例空間是簡單描述資料功能的空間一種常見形式可視化實例空間是散佈一對特徵，用來比較變數對變數相關性和關係 * 儘管資料可能包含幾十個或數百個變數，它是唯一可以同時視覺化分割二維或三維。儘管如此，視覺化模型在實例空間中的幾個維度對於理解不同類型的ｍｏｄｅｌ是有用的因為它在於高維空間的模型提供了洞察力。 * A classification tree and the partitions it imposes in instance space. The black dots correspond to instances of the class Write-off, the plus signs correspond to instances of class non-Write-off. The shading shows how the tree leaves correspond to segments of the population in instance space. 例如，途中左邊一個簡單的分類樹旁邊一個二維實例空間圖：樹的根結點在實例空間圖上以Ｘ軸表示，Ｙ軸則是用ａｇｅ Blance以50K做區隔。對應到實例空間圖試用一條垂直線在x軸上的平面分割 AGE區隔則是對應到實例空間圖是用一條平行線在平面上分割核銷（黑點）非沖銷（加號）就是說分類樹可以用視覺化的方式來呈現 * You classify a new unseen instance by starting at the root node 分類樹除了可以用實例空間表式也可以用規則集來表示從根結點開始，然後跟著attribute test 往下直到最後的葉結點，每個走的路徑都可看成一個規則， * 從樹的頂端開始往下，直到樹的葉節點，每一個路徑都代表一個規則 * 以剛剛的圖為例，得到以下四個規則 * As the model becomes larger, some people will prefer the tree or the rule set. 所以說分類樹是相當於規則集何。這兩種方法見仁見智，在model比較大時，有些人喜歡用看樹有些人喜歡看規則集 * 接下來是要介紹機率的計算剛剛說的是分類樹，在很多決策的問題中，我們有時想要做的不是把他們分類，而是想要更多的資訊做”預測” 例如，在客戶流失預測問題，不是單純地預測一個人是否在合約到期後90天之內離開公司，我們希