- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* 其他決策樹的變化 * 其他決策樹的變化 * 其他決策樹的變化 以機械學習研究者的行話來說,一個看一眼就能夠了解的決策樹,具有方便理解的性質。機械學習領域的一些研究者,非常強調這個觀念,但似乎只有在這些學者以一些小型的,組織完整的資料在建構他們的研究時,才能獲得這樣完美的結果。 * 讓超平面傾斜: 傳統的決策樹檢驗一個節點的單一變數值,只能形成方形區域。在一個二維空間,Y ? N這種測試形式,形成一個由與Y軸垂直且與X軸平行的直線所界定的區域。藉由選擇不同的N值,我們可以讓這條直線上下移動,但無法改變其斜率。同樣的,在一個多維的空間,根據單一變數所做的檢驗定義出一個超平面,這個平面和用來進行檢驗的這個變數所代表的軸垂直,而與其他所有軸平行。 其他決策樹的變化 * 問題是有些東西不適合放進方形區域裡,下圖顯示了這個問題:這兩個區域實際上是由一條對角線劃分,需要一個更深入的決策樹才能產生足夠的方形區域來約略正確的將其劃分。真正的辦法是用屬性的線性合併輕易解決問題。多個軟體工具嘗試以變數數值的加權總數來做分,讓超平面傾斜,而且有多種方法可以選擇加權方式。這些衍生變數可能是多個其他變數的函數,或者可能是對數,平方根,立方,絕對值,或其他單一變數函數。 其他決策樹的變化 * 其他決策樹的變化 * 類神經樹: 在每一個節點就多個變數進行合併性輸入的一個方法,就是將每一個節點組成一個小型的類神經網路。Torrent Systems的一套資料探礦套裝軟體其中一項工具就有使用這個方法。當我們碰到方形區域無法順利描述出讓類別真正形狀的領域,類神經可以得出更正確的分類。從使用者的觀點,這種混合技術在類神經網路領域在決策樹領域更常見,因為與類神經網路結後,決策樹將無法解釋其決策,即使如以下形式(W1X1+W2X2+W3X3+…) ? N,其規則以藉由每一個節點變數的線性組合來以決策樹方法獲得,但在類神經網就很容易讓人迷惑。 其他決策樹的變化 * 決策樹的優、缺點 優點: ●決策樹可以產生易於了解的規則。 ●決策樹不需要太多計算就可進行分類。 ●決策樹能夠處理連續與類別型的資料。 ●決策樹提供清楚的指引,告訴我們在進行預 測和分類時哪一個變是最重要。? 缺點: ●遇上太多類別時容易犯錯。 ●對非方型區域無能為力。 * * 分類與迴歸樹(CART) numbers * 分類與迴歸樹(CART) 找出起始的分隔 : 在過程中的一開始,我們有一個預先分類好的訓練和資料。預先分類意味輸出變數,或稱依變數,具備一個己知的類別。CART藉著一個單一輸入變數函數,在每一個節點分隔資料,以建構一個二分式決策樹。因此,第一的任務是決定哪一個自變數可以成最好的分隔變數。最好分隔的定義是能夠將資料最完善的分配到一個單一類別支配的群體。 * 分類與迴歸樹(CART) 找出起始的分隔 : 用來評估一個分隔數的衡量標準是分散度(diversity)。對於一組資料的『分散度指標』(index of diversity)有多種計算方式。不論哪一種,分散度指標很高,表示這個組合中包含平均分配到多個類別,而分散度指標很低則表示一個單一類別的成員居優勢。 * 分類與迴歸樹(CART) 找出起始的分隔 : 最好的分隔變數是能夠降低一個資料組的分散度,而且降得最多。換言之,我們希望以下這個式子最大化:? 分散度(分隔前)-﹝分散度(分隔後左邊子集 合)+分散度(分隔後右邊子集合)﹞? 三分種分散度衡量法:? min{P(c1), P(c2) }? 2P(c1)P(c2 )? 〔P(c1)logP (c1)〕+〔P(c2)logP (c2)〕 * 分類與迴歸樹(CART) 當各類別出現的機率相等時,以上的三個函數會出現最大值,當資料組中只包含單一類別時,函數值則為零。在完全分散和完全聚集的兩個極端之間,這些函數有些微不同的型態。 為了在一個節點中選擇最佳分隔變數,我們依次考量每一個自變數。假設這個變數遇上多個數值,我們進行二分式研究,希望找出降低分散度最多的最佳分隔
文档评论(0)