决策树MicrosoftSQLServer算法.ppt

  1. 1、本文档共67页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
决策树MicrosoftSQLServer算法

* 類神經預測的結果 * 類神經與決策樹之比較 * 類神經與決策樹之比較 * 類神經與決策樹之比較Profit Chart * * Microsoft 決策樹 採礦模型檢視器 滑鼠右鍵 檢視BukeBuyer的比例及其條件式 觀察屬於該節點之觀測值 * Microsoft 決策樹 採礦模型檢視器 此節點中 BikeBuyer=1的比例有59.59% BikeBuyer=0的比例有40.40% 其特性為 Number Cars Owned=1 Age=32 Commute Distance=‘0-1 Miles’ * Microsoft 決策樹 模型相依性網路 各變數與預測變數間的關聯性 弱 強 預測變數 自變數 * 範例 * 選擇決策樹模組 * 選擇三國志資料 * 選擇CASE * 選擇 預測變數 選擇輸入變數 * 選擇決策樹Model Viewer * 影響身分的一些變數 以三國志資料為例 顯示連接強度由弱到強 * 顯示連接強度由弱到強 * 顯示連接強度由弱到強 可知武力影響身份最強 * 顯示預測變數與解釋變數度由弱到強 * 模型精確度測驗 Lift Chart … * 模型精確度測驗 Lift Chart … SCORE 與機率值Lift Chart … 50% * 80% * 模型精確度測驗 Profit Chart … 母體數目 固定成本 單位成本 單位收益 * 收益 機率 模型精確度測驗 Profit Chart … * 模型精確度測驗 分類矩陣 或說 Confusion Matrix * 模型預測 * 模型預測 SQL 語法 * 模型預測 SQL 語法預測結果 * 模型預測 SQL 語法 * 模型預測參數之設定 * 新增預測模型預測 設定變數 * 執行與比較不同模型 * 新模型預測 結果 * 模型預測 新決策樹 * 4種分類比較 * Lift Chart * Profit Chart * Classification Matrix * Microsoft SQL Server 2005 Data Mining 算法 Decision Tree * 分类(Classification) 一、分类的意义 資料庫 分类模型 了解类別与性别关系 預測 * 二、分类的技术 1.监督式(supervised learning)的机器学习法------ 決策树(Decision Tree) 資料庫 分类标记 性別 年齡 婚姻 否 是 否 是 Female Male 35 ≧35 未婚 已婚 * 二、分类的技术 2.非监督式(unsupervised learning)的机器学习法----- 集群分析法(Cluster Analysis) * 三、分类的目的 1.寻找影响某一重要变項的因素。 2.了解某一族群的特征。 3.建立分类規則。 例如: 行銷策略(市場区分) 銀行(核卡額度) 医疗诊断(肝癌,SARS) * 四、分类的程序 1.模型建立(Model Building) 2.模型評估(Model Evaluation) 3.使用模型(Use Model) 性別 年齡 婚姻 否 是 否 是 Female Male 35 ≧35 未婚 已婚 分类規則 IF 性別=Female AND 年齡35 THEN 購買RV房車=否 IF 性別=Female AND 年齡≧35 THEN 購買RV房車=是 IF 性別=Male AND 婚姻=未婚 THEN 購買RV房車=否 IF 性別=Male AND 婚姻=已婚 THEN 購買RV房車=是 資料庫 訓練樣本(training samples) 建立模型 測試樣本(testing samples) 評估模型 * 資料 Example 訓練樣本 婚姻 年齡 家庭 所得 否 是 否 是 未婚 已婚 35 ≧35 低 高 否 小康 1.建立模型 測試樣本 2. 模型評估 X 錯誤率為 66.67% 修改模型 3.使用模型 * 五、分类演算法的评估 准确度 训练测试法(training-and-testing) 交互验证法(cross-validation) 速度 建模的速度、预测的速度 品质 可诠释性 * 決策树(Decision Tree) 根部節點(root node) 中間節點(non-leaf node) (代表測試的條件) 分支(branches) (代表測試的結果) 葉節點(leaf node) (代表分類後所獲得的分類標記) * 決策树的形成 根部節點 中間節點 停止分支 ? * ID3 算法(C4.5,C5.0) Quinlan(1979)提出,以Shannon(1949)的資訊理論(

文档评论(0)

xy88118 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档