- 1、本文档共27页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第3章朴素贝叶斯分类器
目录CONTENTS3.1贝叶斯分类器理论基础3.2朴素贝叶斯分类器原理与设计3.3朴素贝叶斯分类器算法实现3.4正态贝叶斯分类器3.5贝叶斯网络3.6本章小结
3.1贝叶斯分类器理论基础学习基础学习认知能力信息素养高先验概率(PriorProbability):在没有训练样本数据前,根据以往经验和分析得到的概率,初始时假设样本h的初始概率,用P(h)表示。后验概率(PosteriorProbability):当下事件由因及果发生的概率,求导致该事件发生的原因是由某个因素引起的可能性的大小。由样本属性x导致分类为c的概率P(c|x)就称为后验概率。后验概率(PosteriorProbability):后验概率也是一种条件概率,它是根据事件结果求事件发生原因的概率。例如,上课又迟到了,这是事件的结果,而造成这个结果的原因可能是早上起床晚了,或感冒发烧需要先去看病,P(起床晚了|上课迟到)和P(感冒发烧|上课迟到)就是后验概率。010203
3.1贝叶斯分类器理论基础学习基础信息素养高类条件概率(ClassConditionalProbability):当下事件由果及因发生的概率。样本x相对于类标签c的概率,也称为似然,记作P(x|c)。注意区分几个概念:(1)先验概率是不依赖观测数据的概率分布,在朴素贝叶斯中,类别的概率就是先验概率,记为p(c)。(2)事情已经发生,计算这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率。后验概率的计算要以先验概率为基础。(3)“似然”描述的是在给定了特定观测值的条件下,模型参数的合理性。通常用于建模过程中,选取合适的参数使模型更好地拟合数据。04
3.1贝叶斯分类器理论基础如果A和B是样本空间Ω的两个事件,在给定A条件下B的概率为:推广到一般形式,设A是样本空间Ω上的事件,B是样本空间Ω上的一个划分,
3.1贝叶斯分类器理论基础【例3-1】某地区Y病毒的感染率为0.05,在实际检查过程中,可能会由于技术及操作等原因使病毒携带者未必能检查出阳性反应,同样不带病毒也可能会检查出阳性。假设P(阳性|携带病毒)=0.98,P(阳性|不携带病毒)=0.04,假设某人检查出阳性,他带病毒的概率是多少?由于P(阳性|携带病毒)=0.98,P(阳性|不携带病毒)=0.04,则P(阴性|携带病毒)=0.02,P(阴性|不携带病毒)=0.96。根据贝叶斯公式和全概率公式,有
3.1贝叶斯分类器理论基础
3.1贝叶斯决策理论基础极大似然估计为了估计类条件概率,可以先假设其服从某种确定的概率分布,再利用训练样本对概率分布的参数进行估计。这就是极大似然估计(MaximumLikelihoodEstimation,MLE)的算法思想,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:模型已定,参数未知。通过若干次实验,观察其结果,利用实验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。假设Tc表示训练集T中第c类样本集合,且这些样本是独立同分布的,则参数对于数据集Tc的似然为:
3.1贝叶斯决策理论基础找出参数空间中能使取最大参数值的,其实就是求解:假设样本服从均值为、方差为的正态分布,对其求对数:
3.1贝叶斯决策理论基础求最大似然估计量的一般步骤如下:(1)写出似然函数(2)对似然函数取对数,并整理(3)对的相应参数求偏导(4)解似然方程,得到参数的值。
3.1贝叶斯定理相关概念一个单变量正态分布密度函数为:其正态分布的概率密度函数如图所示。与μ越近的值,其概率越大,反之,其概率值越小。σ描述数据分布的离散程度,σ越大,数据分布越分散,曲线越扁平;σ越小,数据分布越集中,曲线越瘦高。
3.1贝叶斯决策理论基础对于多变量的正态分布,假设特征向量是服从均值向量为、协方差矩阵为的n维正态分布,其中,类条件概率密度函数为:
3.2朴素贝叶斯分类器原理与设计西瓜数据集如表3-1所示。
3.2朴素贝叶斯分类器原理与设计假设我们要判断第3条西瓜数据是否为好瓜,即:根据表3-1的西瓜数据集,有好瓜和坏瓜的先验概率:假设各特征是相互独立的,则有
3.2朴素贝叶斯分类器原理与设计dataTrain=np.array(dataTrain)y=dataTrain[:,-1]good=np.sum(y==好瓜) #好瓜的数量bad=np.sum(y==坏瓜) #坏瓜的数量#好瓜和坏瓜的先验概率prior_good=good/len(y)prior_b
您可能关注的文档
- 《Vue.js超详细入门与项目实战》课件全套 李永亮 第1--10章 vue 3简介 ---vue 3详解.pptx
- Python机器学习项目化教程(微课视频版) 教学大纲.pdf
- Python机器学习项目化教程(微课视频版)课件 第1章 机器学习概述.pptx
- Python机器学习项目化教程(微课视频版)课件 第2章 机器学习基础及Python常用库.pptx
- Python机器学习项目化教程(微课视频版)课件 第4章 k近邻算法与非参数估计.pptx
- Python机器学习项目化教程(微课视频版)课件 第5章 聚类.pptx
- Python机器学习项目化教程(微课视频版)课件 第6章 回归分析.pptx
- Python机器学习项目化教程(微课视频版)课件 第7章 决策树.pptx
- Python机器学习项目化教程(微课视频版)课件 第8章 支持向量机.pptx
- Python机器学习项目化教程(微课视频版)课件 第9章 降维分析.pptx
最近下载
- 北京百师联盟信息技术研究院.doc
- 2.6《观察与比较》教学设计-2024-2025学年一年级上册科学教科版.docx VIP
- 人教版道德与法治二年级上册《这些是大家的》课件.pptx
- 中国特色大国外交和推动构建人类命运共同体.pptx
- 《产品质量鉴定程序规范 总则》.doc VIP
- 七年级数学(沪教版)上册课件-【第2课时 添括号】.pptx
- The Catcher int heRye麦田守望者英文版.doc
- 农药登记残留试验待测残留物和植物源性食品膳食风险评估残留物目录(2020版).docx
- 甲醇羰基化法制备醋酸.pptx
- 超星网课尔雅《走近核科学技术》超星尔雅答案2023章节测验答案.pdf
文档评论(0)