理解朴素贝叶斯分类算法.pdfVIP

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

理解朴素贝叶斯分类算法

贝叶斯分类是⼀类分类的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。⽽朴素朴素贝叶斯分类是贝叶斯分类中最简,也

是常见的⼀种分类⽅法。这篇⽂章我尽可能⽤直⽩的话语总结⼀下我们学习会上讲到的朴素贝叶斯分类算法,希望有利于他⼈理解。

1分类问题综述

对于分类问题,其实谁都不会陌⽣,⽇常⽣活中我们每天都进⾏着分类过程。例如,当你看到⼀个⼈,你的脑⼦下意识判断他是学⽣还是

社会上的⼈;你可能经常会⾛在路上对⾝旁的朋友说“这个⼈⼀看就很有钱”之类的话,其实这就是⼀种分类操作。

既然是贝叶斯分类算法,那么分类的数学描述⼜是什么呢?

从数学⾓度来说,分类问题可做如下定义:已知集合和,确定映射规则y=f(x),使得任意有且仅

有⼀个,使得成⽴。

其中C叫做类别集合,其中每⼀个元素是⼀个类别,⽽I叫做项集合(特征集合),其中每⼀个元素是⼀个待分类项,f叫做分类器。分类算

法的任务就是构造分类器f。

分类算法的内容是要求给定特征,让我们得出类别,这也是所有分类问题的关键。那么如何由指定特征,得到我们最终的类别,也是我们下

⾯要讲的,每⼀个不同的分类算法,对应着不同的核⼼思想。

本篇⽂章,我会⽤⼀个具体实例,对朴素贝叶斯算法⼏乎所有的重要知识点进⾏讲解。

2朴素贝叶斯分类

那么既然是朴素贝叶斯分类算法,它的核⼼算法⼜是什么呢?

是下⾯这个贝叶斯公式:

换个表达形式就会明朗很多,如下:

我们最终求的p(类别|特征)即可!就相当于完成了我们的任务。

3例题分析

下⾯我先给出例⼦问题。

给定数据如下:

现在给我们的问题是,如果⼀对男⼥朋友,男⽣想⼥⽣求婚,男⽣的四个特点分别是不帅,性格不好,⾝⾼矮,不上进,请你判断⼀下⼥⽣

是嫁还是不嫁?

这是⼀个典型的分类问题,转为数学问题就是⽐较p(嫁|(不帅、性格不好、⾝⾼矮、不上进))与p(不嫁|(不帅、性格不好、⾝⾼矮、不上进))

的概率,谁的概率⼤,我就能给出嫁或者不嫁的答案!

这⾥我们联系到朴素贝叶斯公式:

我们需要求p(嫁|(不帅、性格不好、⾝⾼矮、不上进),这是我们不知道的,但是通过朴素贝叶斯公式可以转化为好求的三个量.

p(不帅、性格不好、⾝⾼矮、不上进|嫁)、p(不帅、性格不好、⾝⾼矮、不上进)、p(嫁)(⾄于为什么能求,后⾯会讲,那么就太好了,将

待求的量转化为其它可求的值,这就相当于解决了我们的问题!)

4朴素贝叶斯算法的朴素⼀词解释

那么这三个量是如何求得?

是根据已知训练数据统计得来,下⾯详细给出该例⼦的求解过程。

回忆⼀下我们要求的公式如下:

那么我只要求得p(不帅、性格不好、⾝⾼矮、不上进|嫁)、p(不帅、性格不好、⾝⾼矮、不上进)、p(嫁)即可,好的,下⾯我分别求出这⼏

个概率,最后⼀⽐,就得到最终结果。

p(不帅、性格不好、⾝⾼矮、不上进|嫁)=p(不帅|嫁)*p(性格不好|嫁)*p(⾝⾼矮|嫁)*p(不上进|嫁),那么我就要分别统计后⾯⼏个概率,也

就得到了左边的概率!

等等,为什么这个成⽴呢?学过概率论的同学可能有感觉了,这个等式成⽴的条件需要特征之间相互独⽴吧!

对的!这也就是为什么朴素贝叶斯分类有朴素⼀词的来源,朴素贝叶斯算法是假设各个特征之间相互独⽴,那么这个等式就成⽴了!

但是为什么需要假设特征之间相互独⽴呢?

1、我们这么想,假如没有这个假设,那么我们对右边这些概率的估计其实是不可做的,这么说,我们这个例⼦有4个特征,其中帅包括

{帅,不帅},性格包括{不好,好,爆好},⾝⾼包括{⾼,矮,中},上进包括{不上进,上进},那么四个特征的联合概率分布总共是4维空

间,总个数为2*3*3*2=36个。

36个,计算机扫描统计还可以,但是现实⽣活中,往往有⾮常多的特征,每⼀个特征的取值也是⾮常之多,那么通过统计来估计后⾯

文档评论(0)

爱分享的达人 + 关注
实名认证
文档贡献者

爱分享

1亿VIP精品文档

相关文档