网站大量收购独家精品文档,联系QQ:2885784924

简单朴素贝叶斯分类器的思想与算法分析.pdf

简单朴素贝叶斯分类器的思想与算法分析.pdf

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

简单朴素贝叶斯分类器的思想与算法分析

在数据仓库和数据挖掘应用中,分类是一种非常重要的方法.分类的概念是在已有数据

的基础上学会一个分类函数或构造出一个分类模型,即我们通常所说的分类器(Claifier).该

函数或模型能够把数据集合中的数据记录映射到给定类别中的某一个值,从而可以应用于数

据预测.目前,分类的主要算法有贝叶斯算法、决策树算法(如ID3、C4.5等)、规则推导、

人工神经网络、最近邻算法、支持向量机等等.这些算法在许多现实数据集合上具有较好的

预测精度.其中朴素贝叶斯算法具有良好的可解释性等,在实践中的应用最为广泛.

朴素贝叶斯算法是基于统计理论的方法,它能够预测所属类别的概率.简单朴素贝叶斯

分类器假设一个指定类别中各属性的取值是相互独立的.这一假设称为给定类别条件下的独

立性(ClaConditionalIndependence)假设,它可以有效减少在构造分类器时所需要的计算

量.

简单朴素贝叶斯算法的分类模型是基于Baye定理的,下面就简单介绍一下Baye定

理.设X为一个类别未知的数据样本,H为某个假设,C表示类别集合,若数据样本X属

于一个特定的类别c,那么分类问题就是决定P(H/X),即在获得数据样本X时,H假设成立

的概率.由于P(H),P(X),P(X/H)的概率值可以从(供学习使用的)数据集合中得到,Baye

定理描述了如何根据P(H),P(X),P(X/H)计算获得的P(H/X),有关的具体公式定义描述如下:

P(X/H)P(H)

P(H/X)(1)

P(X)

简单朴素贝叶斯分类器进行分类操作的步骤说明如下:

1.每个数据样本均是由一个n维特征向量X={x,x,……,x}来描述其n个属性(A,

12n1

A,……,A)的具体取值.

2n

2.假设共有m个不同类别,{C,C,……,C}.给定一个未知类别的数据样本X,分

12n

类器在已知样本X的情况下,预测X属于事后概率最大的那个类别.也就是说,朴素贝叶

斯分类器将未知类别的样本X归属到类别C,当且仅当:P(C/X)P(C/X)其中1≤j≤m,j

iij

≠i.

也就是P(C/X)最大.其中的类别C就称为最大事后概率的假设,根据Baye定理可知,

ii

P(X/C)P(C)

P(C/X)ii(2)

iP(X)

3.由于P(X)对于所有的类别均是相同的,所以,要使公式(2)取得最大值,只需要

P(X/C)P(C)取最大即可.类别的事前概率P(C)可以通过公式P(C)=s/s进行估算,其中s

iiiiii

为训练样本集合类别C的个数,s为整个训练样本集合的大小.

i

4.根据所给定包含多个属性的数据集,直接计算P(X/C)的运算量是非常大的.为实

i

现对P(X/C)的有效估算,朴素贝叶斯分类器通常都是假设各类别是相互独立的即各属性的

文档评论(0)

飞龙在天露呃呃 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档