简单朴素贝叶斯分类器的思想与算法分析.docxVIP

下载本文档

9
0
约2.24万字
约 24页
2020-11-27 发布于天津
举报
版权申诉

简单朴素贝叶斯分类器的思想与算法分析.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

简单朴素贝叶斯分类器的思想与算法分析在数据仓库和数据挖掘应用中，分类是一种非常重要的方法. 分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型，即我们通常所说的分类器 (Classifier) .该函数或模型能够把数据集合中的数据记录映射到给定类别中的某一个值，从而可以应用于数据预测.目前，分类的主要算法有贝叶斯算法、决策树算法(如 ID3、C4.5等)、规则推导、人工神经网络、最近邻算法、支持向量机等等.这些算法在许多现实数据集合上具有较好的预测精度.其中朴素贝叶斯算法具有良好的可解释性等，在实践中的应用最为广泛. 朴素贝叶斯算法是基于统计理论的方法，它能够预测所属类别的概率. 简单朴素贝叶斯分类器假设一个指定类别中各属性的取值是相互独立的. 这一假设称为给定类别条件下的独立性(Class Conditional Independence)^设，它可以有效减少在构造分类器时所需要的计算量. 简单朴素贝叶斯算法的分类模型是基于 Bayes定理的，下面就简单介绍一下 Bayes定理.设X为一个类别未知的数据样本， H为某个假设，C表示类别集合，若数据样本 X属于一个特定的类别 c,那么分类问题就是决定 P(H/X),即在获得数据样本 X时，H假设成立的概率.由于P(H), P(X), P(X/H)的概率值可以从(供学习使用的)数据集合中得到， Bayes 定理描述了如何根据P(H) , P(X), P(X/H)计算获得的P(H/X),有关的具体公式定义描述如下: 定理描述了如何根据 P(H /X)= P(H /X)= P(X/H)P(H) P(X^ 简单朴素贝叶斯分类器进行分类操作的步骤说明如下: 每个数据样本均是由一个 n维特征向量X={xi,x2, , xn}来描述其n个属性(Ai, A2,……,An)的具体取值. 假设共有m个不同类别，{Ci, C2,……,Cn} .给定一个未知类别的数据样本 X,分类器在已知样本 X的情况下，预测 X属于事后概率最大的那个类别.也就是说，朴素贝叶斯分类器将未知类别的样本 X归属到类别Ci,当且仅当：P(Ci/X) P(Cj/X) 其中1 j m,j 也就是P(Ci/X)最大.其中的类别Ci就称为最大事后概率的假设，根据Bayes定理可知, P(Ci P(Ci/X)= P(X/Ci)P(Ci) P(X) 由于P(X)对于所有的类别均是相同的，所以，要使公式( 2)取得最大值，只需要 P(X/Ci)P(Ci)取最大即可.类别的事前概率 P(Ci)可以通过公式 P(Ci)=si/s进行估算，其中 si 为训练样本集合类别的个数，s为整个训练样本集合的大小. 根据所给定包含多个属性的数据集，直接计算 P(X/Ci)的运算量是非常大的.为实现对P(X/Ci)的有效估算，朴素贝叶斯分类器通常都是假设各类别是相互独立的即各属性的取值是相互独立的.即： n P(X/Ci)=［【P(Xk/Ci) (3) k 1 可以根据训练数据样本估算 P(Xi/Ci) , P(X2/Ci),……，P(Xn/Ci)的值，具体处理方法说明如下：若Ak是名称型属性，就有P(Xk/Ci)=Sk/s,这里林为训练样本中类别为 Ci且属性Ak的取值为Vk的样本数，Si为训练样本中类别为 Ci的样本数. P(Xk/Ci)就用概率密度f(X P(Xk/Ci)就用概率密度f(Xk/Ci)代 (X-C) e= 1 f (Xk, G) = g(Xk,、^ ,、q) = 2 — 其中，g(Xk, G,a g)为属性Ak的高斯规范密度函数， a s a ci为训练样本中类别为 G Xmean=(Xl + X Xmean=(Xl + X2+ +Xn)/n, 其中 Xi, X2,……,Xn表示数值型属性的值，n表示实例个数.数值型属性的方差计算公式为： (Xi -Xmean) (X2 - Xmean ) 川 (Xn - Xmean ) Devs = n -1 其中Xi, X2,……,Xn表示数值型属性的值，Xmean表示方差，n表示实例个数. 为预测一个样本 X的类别，可对每个类别 Ci估算相应的P(X/Ci)P(Ci)，样本X归属到类别Ci,当且仅当：P(Ci/X) P(Cj/X) 其中ivj m, j乒i. 也可通过求百分比 percent(Ci)= P(Ci/X)/E P(Ck/X),百分比最大值对应的类标就位样本 X 的类别. 下面就以有关天气问题的数据为例仔细介绍一下朴素贝叶斯分类器进行分类的过程. 有关天气的数据如下表所示： outlook temperature humidity windy play (类型) (温度) (湿度) (风) (玩)