Python机器学习项目化教程(微课视频版)课件 第3章 朴素贝叶斯分类器.pptx

Python机器学习项目化教程(微课视频版)课件 第3章 朴素贝叶斯分类器.pptx

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第3章朴素贝叶斯分类器

目录CONTENTS3.1贝叶斯分类器理论基础3.2朴素贝叶斯分类器原理与设计3.3朴素贝叶斯分类器算法实现3.4正态贝叶斯分类器3.5贝叶斯网络3.6本章小结

3.1贝叶斯分类器理论基础学习基础学习认知能力信息素养高先验概率(PriorProbability):在没有训练样本数据前,根据以往经验和分析得到的概率,初始时假设样本h的初始概率,用P(h)表示。后验概率(PosteriorProbability):当下事件由因及果发生的概率,求导致该事件发生的原因是由某个因素引起的可能性的大小。由样本属性x导致分类为c的概率P(c|x)就称为后验概率。后验概率(PosteriorProbability):后验概率也是一种条件概率,它是根据事件结果求事件发生原因的概率。例如,上课又迟到了,这是事件的结果,而造成这个结果的原因可能是早上起床晚了,或感冒发烧需要先去看病,P(起床晚了|上课迟到)和P(感冒发烧|上课迟到)就是后验概率。010203

3.1贝叶斯分类器理论基础学习基础信息素养高类条件概率(ClassConditionalProbability):当下事件由果及因发生的概率。样本x相对于类标签c的概率,也称为似然,记作P(x|c)。注意区分几个概念:(1)先验概率是不依赖观测数据的概率分布,在朴素贝叶斯中,类别的概率就是先验概率,记为p(c)。(2)事情已经发生,计算这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率。后验概率的计算要以先验概率为基础。(3)“似然”描述的是在给定了特定观测值的条件下,模型参数的合理性。通常用于建模过程中,选取合适的参数使模型更好地拟合数据。04

3.1贝叶斯分类器理论基础如果A和B是样本空间Ω的两个事件,在给定A条件下B的概率为:推广到一般形式,设A是样本空间Ω上的事件,B是样本空间Ω上的一个划分,

3.1贝叶斯分类器理论基础【例3-1】某地区Y病毒的感染率为0.05,在实际检查过程中,可能会由于技术及操作等原因使病毒携带者未必能检查出阳性反应,同样不带病毒也可能会检查出阳性。假设P(阳性|携带病毒)=0.98,P(阳性|不携带病毒)=0.04,假设某人检查出阳性,他带病毒的概率是多少?由于P(阳性|携带病毒)=0.98,P(阳性|不携带病毒)=0.04,则P(阴性|携带病毒)=0.02,P(阴性|不携带病毒)=0.96。根据贝叶斯公式和全概率公式,有

3.1贝叶斯分类器理论基础

3.1贝叶斯决策理论基础极大似然估计为了估计类条件概率,可以先假设其服从某种确定的概率分布,再利用训练样本对概率分布的参数进行估计。这就是极大似然估计(MaximumLikelihoodEstimation,MLE)的算法思想,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:模型已定,参数未知。通过若干次实验,观察其结果,利用实验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。假设Tc表示训练集T中第c类样本集合,且这些样本是独立同分布的,则参数对于数据集Tc的似然为:

3.1贝叶斯决策理论基础找出参数空间中能使取最大参数值的,其实就是求解:假设样本服从均值为、方差为的正态分布,对其求对数:

3.1贝叶斯决策理论基础求最大似然估计量的一般步骤如下:(1)写出似然函数(2)对似然函数取对数,并整理(3)对的相应参数求偏导(4)解似然方程,得到参数的值。

3.1贝叶斯定理相关概念一个单变量正态分布密度函数为:其正态分布的概率密度函数如图所示。与μ越近的值,其概率越大,反之,其概率值越小。σ描述数据分布的离散程度,σ越大,数据分布越分散,曲线越扁平;σ越小,数据分布越集中,曲线越瘦高。

3.1贝叶斯决策理论基础对于多变量的正态分布,假设特征向量是服从均值向量为、协方差矩阵为的n维正态分布,其中,类条件概率密度函数为:

3.2朴素贝叶斯分类器原理与设计西瓜数据集如表3-1所示。

3.2朴素贝叶斯分类器原理与设计假设我们要判断第3条西瓜数据是否为好瓜,即:根据表3-1的西瓜数据集,有好瓜和坏瓜的先验概率:假设各特征是相互独立的,则有

3.2朴素贝叶斯分类器原理与设计dataTrain=np.array(dataTrain)y=dataTrain[:,-1]good=np.sum(y==好瓜) #好瓜的数量bad=np.sum(y==坏瓜) #坏瓜的数量#好瓜和坏瓜的先验概率prior_good=good/len(y)prior_b

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档