- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第八章分策分演算法神路分析料掘透分析料源中料可以取用於行的性知性掘就是指性知的料掘主要包括料分值等分是料物件的所即物件的分分在料掘中是一非常重要的任料分首先透分析由己知的料物件成的料集建描述分料物件的分模型程序分析料集建分模型分演算法可以根下列行比和估的率涉及模型正地新的或先前未的料的的能力速度涉及生和使用模型的算花健性涉及定噪音料或具有漏值的料模型正的能力可伸性涉及定大量料有效地建模型的能力可解性涉及模型提供的了解和洞察力的估模型的率估模型的率使用本集本集中每本的是已知的但不提供分模型分程序分
第八章 分類與預測8.1 決策樹分類演算法8.2 類神經網路8.3 迴歸分析8.4 結語習題 資料採掘透過分析資料來源中資料,可以獲取用於 進行預測的預測性知識。預測性採掘就是指預測性 知識的資料採掘,主要包括資料分類、數值預測 等。 分類是預測資料物件的所屬類別,即物件的分類別標號 分類在資料採掘中是一項非常重要的任務 資料分類首先透過分析由己知類別的資料物件組成的訓練資料集,建構描述並區分資料物件類別的分類模型 學習程序 (1) 分析訓練資料集建構分類模型 分類演算法可以根據下列標準進行比較和評估。 預測的準確率。涉及模型正確地預測新的或先前未見過的資料的類別標號的能力。 速度。涉及產生和使用模型的計算花費。 穩健性。涉及給定噪音資料或具有遺漏值的資料,模型正確預測的能力。 可伸縮性。涉及給定大量資料,有效地建構模型的能力。 可解讀性。涉及學習模型提供的了解和洞察力的階層。 (2) 評估模型的預測準確率 評估模型的預測準確率使用測試樣本集。測試樣本 集中每個樣本的類別標號是已知的,但並不提供給 分類模型 分類程序 分類程序就是用分類模型(分類規則、決策樹、數學公式等)對未知類別的新資料進行分類。 分類和聚類是兩個容易混淆的概念,但事實上它們有顯著區別。 資料分類是有指導的,而聚類分析是無指導的。 數值預測程序與分類程序相似。首先透過分析由預 測屬性取值已知的資料物件組成的訓練資料集,建 構描述資料物件特徵與預測屬性之間的相關關係的 預測模型,然後利用預測模型對預測屬性取值未知 的資料物件進行預測。 8.1 決策樹分類演算法 決策樹是一種有效的分類方法,對於多峰分佈之類 的問題,這種方法尤為方便。利用決策樹採用分級 的形式,可以把一個複雜得多類別分類問題轉化為 若干個簡單的分類問題來解決。 8.1.1 什麼是決策樹 設計一個決策樹,主要應解決下面幾個問題: 選擇一個合適的樹結構,即合理安排樹的節點和分支。 確定在每個非葉節點上要使用的屬性。 在每個非葉節點上選擇合適的決策規則。 8.1.2 決策樹的建構 演算法及描述 決策樹分類演算法透過分析訓練資料集遞迴地建構決策樹,其基本思想是:首先,在整個訓練資料集S所有描述屬性A1,A2,…,Am上遞迴地建構決策樹。 當決策樹分類演算法遞迴地建構決策樹時,某節點對應的訓練資料(子)集由整個訓練資料集中滿足從根節點到該節點路徑上所有屬性測試的訓練樣本組成。 出現如下情況,也需要停止建構決策樹(子樹)的遞迴 程序。 某節點對應的訓練資料(子)集為空集合。此時,該節點作為葉節點並用父節點中佔多數的記錄類別標識。 某節點沒有對應的(剩餘)描述屬性。此時,該節點作為葉節點並用該節點中佔多數的記錄類別標示。 決策樹分類演算法描述如下: 演算法:決策樹分類演算Generate_decision_tree(S,A) 輸入:訓練資料集S,描述屬性集合A 輸出:決策樹 步驟: ① 創建對應S的節點N ② if S中的記錄屬於同一類別c then以。標示N並將N作為葉節點返回 ③ if A為空 then 以S中佔多數的記錄類別。標示N並將N作為葉節點返回 ④ 從A中選擇對S而言資訊增益最大的描述屬性Ai作為N的測試屬性 ⑤ for Ai的每個可能取值 //設Ai的可能取值為a1,a2,…,av(5.1) 產生S的一個子集Sj;//Sj為S中Ai=aj的記錄集合(5.2) if Sj為空白,then創建對應Sj的節點Nj,、以S中佔多數的記錄類別c標識Nj,並將Nj作為葉節點形成N的一個分支(5.3) else 由Generate_decision_tree(Sj,A-Ai)創建子樹形成N的一個分支。 資訊增益 離散型隨機變數X的無條件entropy定義為 式中,P(xi)為X=xi的機率;u為X的可能取值個數。 離散型隨機變數X的條件entropy定義為 式中,為X= ,Y= 的聯合機率; 為已知Y= 時,X= 的條件機率;u、v分別為X、Y的可能取值個數。 假設訓練資料集是關係資料表r1,r2,…,rn,其中描述 屬性為A1,A2,…,Am、類別標屬性為C.類別標屬性C 的無條件entropy定義為 式中,u為C的可能取值個數,即類別個數,類別記 為c1,c2,…,cu; 為屬於類別ci的記錄集合, 即為屬 於類別ci的記錄總數。 給定描述屬性 ,類別標屬性C的條件entropy 定義為 式中,V為 的可能取值個數,取值記a1,a2,…,av; 為 =aj的記錄集合, 即為
您可能关注的文档
- 2016年度实验教学示范中心年度报告 - 云南财经大学.pdf
- 2016年苏大艺术学院自考助学专业招生简章 - 苏州大学艺术学院.doc
- 2016年烟台大学硕士研究生招生专业目录 - 烟台大学研究生处.doc
- 2016中国住博会邀请函(版) - 中文.doc
- 2016年诺贝尔经济学奖得主契约理论泰斗—哈特和 - 中华经济研究院.pdf
- 2017港股投资机会展望@二元思考.pdf
- 2017年第二批北京市政府专项债券信用评级 - 北京市财政局.pdf
- 2017年肥西县农产品检测仪器采购 - 安徽合肥公共资源交易中心.doc
- 2017年配股募集资金投资项目可行性分析报告.pdf
- 6034期末考试.pdf
- charles komanoff 单位:美国培育自然基金会职称:主任 - energy .pdf
- chiyoda ute business report - チヨダウーテ株式会社.pdf
- china 中国 - prp architects.pdf
- ci设计 - 美术学院.doc
- cng、lng 天然气加气站建设项目环境影响报告表.pdf
- cisco-compatible extensions (ccx) 无线客户端进步的标准超过90 .ppt
- cnki数据库交换服务中心的基本结构不同网络条件 - 中国知网.ppt
- cns 草-修1000567.pdf
- cnki数据库具体检索方法.ppt
- db系统其它议题 - 联合大学.pdf
文档评论(0)