- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2018/10/4 Data Mining: Concepts and Techniques 1 VFDT (Very Fast Decision Tree) ? ? VFDT 是一種基于 Hoeffding 不等式建立決策樹的 方法,透過不斷地將葉節點替換為決策節點而生 成,其中每個葉節點都保存有關于屬性值的統計 信息。 ? 當一個新樣本到達後,在樹的每個節點都進行劃 分測試,根據不同的屬性取值進入不同的分支, 最終到達樹的葉節點。 ? 在數據到達葉節點後,節點上的統計信息會被更 新,同時該節點基于屬性的測試值將重新計算。 2018/10/4 Data Mining: Concepts and Techniques 2 VFDT (Very Fast Decision Tree) ? (Cont.) ? VFDT 特性: ? 主要是利用 Hoeffding 不等式確定葉節點進行劃 分所需要的樣本數目。 ? VFDT 所産生的決策樹在大量減少處理樣本數 目的同時,能夠保證和用全部樣本所産生的決 策樹具有無限接近的精確度。 ? VFDT 中沒有處理連續值屬性的問題,同時也 無法處理概念流。 2018/10/4 Data Mining: Concepts and Techniques 3 VFDT (Very Fast Decision Tree) ? ? (Cont.) ? VFDT 與 Hoeffding Tree 比較: ? 速度較快 ? 佔記憶體空間較小 ? VFDT 與傳統決策樹比較: ? 兩者正確性相似 ? 處理大量資料 VFDT 時間花費少 ? Examples :處理 1.6million 資料量 ? 傳統決策樹:花費 24 小時 ? VFDT 決策樹:花費 21 分鐘 ? VFDT 仍然無法處理概念流 2018/10/4 Data Mining: Concepts and Techniques 4 CVFDT (Concept-adapting VFDT) ? ? 由 Hulten 等人在 VFDT 的基礎上提出了解決 概念流問題的演算法 — CVFDT 。 ? 概念流 (Concept Drift ) : ? 時間改變資料流 ( 連續資料 ) 。 ? 合併新資料與去除舊資料。 2018/10/4 Data Mining: Concepts and Techniques 5 CVFDT (Concept-adapting VFDT) ? ? (Cont.) ? CVFDT : ? 在葉節點可能會産生概念流時,預先産生一棵備 選子樹,並將新子樹變得更精確,用新子樹替代 原先的舊子樹,從而解決了概念流所導致的預測 性能下降的問題。 ? 每當有新樣本到達,就把 VFDT 應用到滑動窗口 (Sliding window) 上, CVFDT 透過不斷地把 VFDT 演算法應用到固定大小的滑動窗口上,從不斷變 化的數據流上生成決策樹。 ? 執行時間較 VFDT 少。 2018/10/4 Data Mining: Concepts and Techniques 6 Ensemble of Classifiers Algorithm ? 由 wang 等人提出了一種利用加權的多個分類 器挖掘概念漂移數據流的方法。 ? 系統首先從資料流中產生幾個分類器,同時 根據測試資料集上的分類精度進行加權。集 合分類器不但提高了學習模型的效率,也提 高了分類精度。 2018/10/4 Data Mining: Concepts and Techniques 7 Ensemble of Classifiers Algorithm (Cont.) ? 集合分類器優點: ? 提高了預測的精確度 ? 由于大部分分類器模型的建立複雜度都是非線性 的,因此建立集合分類器比建立單一的分類器要 高效得多 ? 集合分類器本身就可以使其能夠並行擴展和在線 分類大數據庫 2018/10/4 Data Mining: Concepts and Techniques 8 Clustering Evolvimg Data Streams ? 為了更有效的 data stream 分群,有以下幾 個方法: ? 計算與儲存過去的資料概要 ? 應用 Divide-and-Conquer 策略 ? 增加進來的 data stream 分群 ? 實行 microclustering 和 macrocluster
文档评论(0)