- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
单击“挖掘结构”下的“Bayes.dmm”,在出现的下拉菜单中选择“浏览”命令,或者单击“挖掘模型查看器”选项卡,系统创建的依赖关系网络如图7.13所示。从中看到,学生、年龄和信誉3个条件属性会影响是否购买计算机,而收入条件属性与是否购买计算机无关。 单击“属性配置文件”选项卡,其结果如图7.14所示,从中可以了解每个描述属性的状态分布情况。例如,在全部14个样本中,年龄为“40”的概率为0.357,年龄为“≤30”的概率为0.357,年龄为“31~40”的概率为0.286。在购买计算机为“否”的5个样本中,年龄为“40”的概率为0.4,年龄为“≤30”的概率为0.6,年龄为“31~40”的概率为0。 单击“属性特征”选项卡,其结果如图7.15所示,从中可以了解不同群体的基本特征的概率。例如,学生为“否”的概率最大,年龄为“≤30”的概率次之,学生为“是”的概率最小。 单击“属性对比”选项卡,其结果如图7.16所示,从中可以比较不同群体间的特性,即类别的倾向性。如年龄为“31~40”时完全倾向于购买计算机(购买计算机=“是”),而学生为“否”时完全倾向于不购买计算机(购买计算机=“否”)。 2. 分类预测 对DST1表进行分类预测的过程如下: ① 单击“挖掘模型预测”选项卡,再单击“选择输入表”对话框中的“选择事例表”命令,出现“选择表”对话框,指定DMK1-1数据源中的DST1表,单击“确定”按钮。 ② 保持默认的字段联接关系,将DST1表中的各个列拖放到下方的列表中,选中“购买计算机”字段的前面“源”,从下拉列表中选择“DST挖掘模型”,如图7.17所示,表示其他字段数据直接来源于DST1表,只有“购买计算机”字段是采用前面训练样本集得到的Bayes挖掘模型来进行预测的。 ③ 在任一空白处右击并在出现的菜单中选择“结果”命令,出现如图7.18所示的分类预测结果。从中看到和决策树的预测结果完全相同。 7.4 电子商务数据的贝叶斯分类 通过实际操作讲解。 * 第7章 贝叶斯分类算法 贝叶斯分类概述 朴素贝叶斯分类 SQL Server朴素贝叶斯分类 电子商务数据的贝叶斯分类 7.1 贝叶斯分类概述 7.1.1 贝叶斯定理 若已知P(C)、P(A)和P(A|C),如图7.1所示,求P(C|A)后验概率的贝叶斯定理如下: 7.1.2 贝叶斯信念网络 定义7.1 贝叶斯信念网络(Bayesian Belief Network,BBN)简称贝叶斯网,它是一个概率网络,是一种基于概率推理的数学模型,解决复杂系统的不确定性和不完整性问题。用图形表示一组随机变量之间的概率关系。贝叶斯网有两个主要成分: 一个有向无环图(DAG):图中每个节点代表一个随机变量,每条有向边表示变量之间的依赖关系。若有一条有向边从节点X到节点Y,那么X就是Y的父节点,Y就是X的子节点。 一个条件概率表(CPT):把各节点和父节点关联起来。在CPT中,如果节点X没有父节点,则表中只包含先验概率P(X);如果节点X只有一个父节点Y,则表中包含条件概率P(X|Y);如果节点X有多个父节点Y1、Y2、…、Yk,则表中包含条件概率P(X|Y1、Y2、…、Yk)。 例如,假设节点X直接影响到节点Y,即X→Y,则用从X指向Y的箭头建立节点X到节点Y的箭头(X,Y),权值(即连接强度)用条件概率P(Y|X)来表示,如图7.2所示。其中箭头表示条件依赖关系。 定义7.2 对于随机变量(A1、A2、…、An),任何数据对象(a1、a2、…、an)的联合概率可以通过以下公式计算获得: 7.2 朴素贝叶斯分类 7.2.1 朴素贝叶斯分类原理 1. 朴素贝叶斯分类过程 朴素贝叶斯分类基于一个简单的假定:在给定分类特征条件下,描述属性值之间是相互条件独立的。 朴素贝叶斯分类思想是:假设每个样本用一个n维特征向量X={x1,x2,…,xn}来表示,描述属性为A1、A2、…、An(Ai之间相互独立)。类别属性为C,假设样本中共有m个类即C1、C2、…、Cm,对应的贝叶斯网如图7.5所示,其中P(Ai|C)是后验概率,可以通过训练样本集求出。 给定一个未知类别的样本X,朴素贝叶斯分类将X划分到属于具有最高后验概率P(Ci|X)的类中,也就是说,将X分配给类Ci,当且仅当: P(Ci|X)P(Cj|X),1≤j≤m,i≠j 根据贝叶斯定理有: 由于P(X)对于所有类为常数,只需要最大化P(X|Ci)P(Ci)即可。而P(X|Ci)是一个联合后验概率,即: P(X|Ci)=P(A1,A2,
文档评论(0)