微软数据挖掘方案--微软商务智能助力企业科学决策.pptVIP

微软数据挖掘方案--微软商务智能助力企业科学决策.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
微软数据挖掘方案--微软商务智能助力企业科学决策.ppt

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 何謂Na?ve Bayes Classifer 單純貝氏分類器 (Na?ve Bayes Classifier) 是一種簡單且實用的分類方法。 在某些領域的應用上,其分類效果優於類神經網路和決策樹 採用監督式的學習方式,分類前必須事先知道分類型態,透過訓練樣本的訓練學習,有效地處理未來欲分類的資料。 * 何謂Na?ve Bayes Classifer 單純貝氏分類器,主要的運作原理,是透過訓練樣本,學習與記憶分類根據所使用屬性的關係,產生這些訓練樣本的中心概念,再用學習後的中心概念對未歸類的資料進行類別預測,以得到受測試資料物件的目標值。 每筆訓練樣本,一般含有分類相關連屬性的值,及分類結果 (又稱為目標值);一般而言,屬性可能出現兩種以上不同的值,而目標值則多半為兩元的相對狀態,如 “是/否”,”好/壞”,”對/錯”,”上/下”。 * 建立Na?ve Bayes 分類模型 * 執行Na?ve Bayes 分類模型結果 * 建立Na?ve Bayes 分類模型結果及其關聯強弱 * 建立Na?ve Bayes 分類模型結果及其分類變數間之關係 * 建立Na?ve Bayes 分類模型結果及其分類變數間之機率值 * 建立Na?ve Bayes 分類模型結果及其分類變數間之機率值 * 不同分類建立Na?ve Bayes 分類模型結果及其分類變數間之機率值 * 建立Na?ve Bayes 分類模型結果及其分類變數間之機率值 * 建立Na?ve Bayes 分類模型精確度之檢視Lift Chart * 建立Na?ve Bayes 分類模型精確度之檢視Profit Chart * 建立Na?ve Bayes 分類模型精確度之檢視Profit Chart Demo---自行车销售 某体育用品商店 拥有大量会员 部分会员是购买自行车的用户 问题:决定客户是否可能购买自行车的因素? 性别 年龄 交通距离 拥有的汽车数目 拥有的子女数目 收入 …… Microsoft Services | Strategy Business Line | Edgar Iquira 分類演算法的評估 準確度 訓練測試法(training-and-testing) 交互驗證法(cross-validation) 速度 建模的速度、預測的速度 品質 可詮釋性 * 決策樹(Decision Tree)之介紹 * 根部節點(root node) 中間節點(non-leaf node) (代表測試的條件) 分支(branches) (代表測試的結果) 葉節點(leaf node) (代表分類後所獲得的分類標記) 決策樹的形成 * 根部節點 中間節點 停止分支 ? ID3 演算法(C4.5,C5.0) Quinlan(1979)提出,以Shannon(1949)的資訊理論(Information theory)為依據。 資訊理論:若一事件有k種結果,對應的機率為Pi。則此事件發生後所得到的資訊量I(視為Entropy)為: I=-(p1*log2(p1)+ p2*log2(p2)+…+ pk*log2(pk)) Example 1: 設 k=4? p1=0.25,p2=0.25,p3=0.25,p4=0.25 I=-(.25*log2(.25)*4)=2 Example 2: 設 k=4? p1=0, p2=0.5, p3=0, p4=0.5 I=-(.5*log2(.5)*2)=1 Example 3: 設 k=4? p1=1, p2=0, p3=0, p4=0 I=-(1*log2(1))=0 * ID3 演算法(C4.5,C5.0) 資訊獲利(Information Gain) 若分類標記(Y)分為(成功、失敗)兩種,X為預測變項(類別屬性;k類),n為總樣本數(n1為總樣本數中具成功標記的個數),經由X變項將樣本分類後mi為X=i類中的總樣本個數(mi1為X=i類中具成功標記的個數)。根據變項X將n個樣本分為m1,m2,…,mk的資訊獲利為: Gain(X)=I(n,n1)-E(X), 其中 I(n,n1)=-((n1/n)log2(n1/n)+(1-n1/n)log2(1-n1/n)) E(X)=(m1/n)*I(m1,m11)+(m2/n)*I(m2,m21)+…(mk/n)*I(mk,mk1) * * Example(Gain) n=16 n1=4 I(16,4)=-

文档评论(0)

czy2014 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档