微软数据挖掘方案--微软商务智能助力企业科学决策.pptVIP

下载本文档

0
0
约9.23千字
约 73页
2018-04-16 发布于江西
举报
版权申诉

微软数据挖掘方案--微软商务智能助力企业科学决策.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

微软数据挖掘方案--微软商务智能助力企业科学决策.ppt

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 何謂Na?ve Bayes Classifer 單純貝氏分類器 (Na?ve Bayes Classifier) 是一種簡單且實用的分類方法。在某些領域的應用上，其分類效果優於類神經網路和決策樹採用監督式的學習方式，分類前必須事先知道分類型態，透過訓練樣本的訓練學習，有效地處理未來欲分類的資料。 * 何謂Na?ve Bayes Classifer 單純貝氏分類器，主要的運作原理，是透過訓練樣本，學習與記憶分類根據所使用屬性的關係，產生這些訓練樣本的中心概念，再用學習後的中心概念對未歸類的資料進行類別預測，以得到受測試資料物件的目標值。每筆訓練樣本，一般含有分類相關連屬性的值，及分類結果 (又稱為目標值)；一般而言，屬性可能出現兩種以上不同的值，而目標值則多半為兩元的相對狀態，如 “是/否”，”好/壞”，”對/錯”，”上/下”。 * 建立Na?ve Bayes 分類模型 * 執行Na?ve Bayes 分類模型結果 * 建立Na?ve Bayes 分類模型結果及其關聯強弱 * 建立Na?ve Bayes 分類模型結果及其分類變數間之關係 * 建立Na?ve Bayes 分類模型結果及其分類變數間之機率值 * 建立Na?ve Bayes 分類模型結果及其分類變數間之機率值 * 不同分類建立Na?ve Bayes 分類模型結果及其分類變數間之機率值 * 建立Na?ve Bayes 分類模型結果及其分類變數間之機率值 * 建立Na?ve Bayes 分類模型精確度之檢視Lift Chart * 建立Na?ve Bayes 分類模型精確度之檢視Profit Chart * 建立Na?ve Bayes 分類模型精確度之檢視Profit Chart Demo---自行车销售某体育用品商店拥有大量会员部分会员是购买自行车的用户问题：决定客户是否可能购买自行车的因素？性别年龄交通距离拥有的汽车数目拥有的子女数目收入 …… Microsoft Services | Strategy Business Line | Edgar Iquira 分類演算法的評估準確度訓練測試法(training-and-testing) 交互驗證法(cross-validation) 速度建模的速度、預測的速度品質可詮釋性 * 決策樹(Decision Tree)之介紹 * 根部節點(root node) 中間節點(non-leaf node) (代表測試的條件) 分支(branches) (代表測試的結果) 葉節點(leaf node) (代表分類後所獲得的分類標記) 決策樹的形成 * 根部節點中間節點停止分支？ ID3 演算法(C4.5,C5.0) Quinlan(1979)提出，以Shannon(1949)的資訊理論(Information theory)為依據。資訊理論:若一事件有k種結果,對應的機率為Pi。則此事件發生後所得到的資訊量I(視為Entropy)為： I=-(p1*log2(p1)+ p2*log2(p2)+…+ pk*log2(pk)) Example 1: 設 k=4? p1=0.25,p2=0.25,p3=0.25,p4=0.25 I=-(.25*log2(.25)*4)=2 Example 2: 設 k=4? p1=0, p2=0.5, p3=0, p4=0.5 I=-(.5*log2(.5)*2)=1 Example 3: 設 k=4? p1=1, p2=0, p3=0, p4=0 I=-(1*log2(1))=0 * ID3 演算法(C4.5,C5.0) 資訊獲利(Information Gain) 若分類標記(Y)分為(成功、失敗)兩種，X為預測變項(類別屬性;k類)，n為總樣本數(n1為總樣本數中具成功標記的個數)，經由X變項將樣本分類後mi為X=i類中的總樣本個數(mi1為X=i類中具成功標記的個數)。根據變項X將n個樣本分為m1,m2,…,mk的資訊獲利為:Gain(X)=I(n,n1)-E(X), 其中I(n,n1)=-((n1/n)log2(n1/n)+(1-n1/n)log2(1-n1/n))E(X)=(m1/n)*I(m1,m11)+(m2/n)*I(m2,m21)+…(mk/n)*I(mk,mk1) * * Example(Gain) n=16 n1=4 I(16,4)=-