贝叶斯分类器讲义.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
贝叶斯分类器;一、分类器的概念;分 类;分类器的训练 基本方法:用一组已知的对象来训练分类器 目的的区分:1. 分类错误的总量最少 2. 对不同的错误分类采用适当的加权 使分类器的整个“风险”达到最低 偏差:分类错误 分类器的性能测试 已知类别的测试集;已知对象特征PDF的测试集 PDF的获取:画出参数的直方图,并计算均值和方差,再规划到算法面积,需要的话再做一次平滑,就可将这个直方图作为相应的PDF设计 独立每一类的测试集 使用循环的方法;特征选择; 二、概率论基本知识;概率论基本知识;联合概率和条件概率 联合概率:设A,B是两个随机事件,A和B同时发生的概率称为联合概率,记为:P(AB); 条件概率:在B事件发生的条件下,A事件发生的概率称为条件概率,记为:P(A|B), P(A|B) = P(AB) / P(B) ; 乘法定理:P(AB) = P(B)P(A|B) = P(A)P(B|A)。 ;概率密度函数 概率分布函数:设X为连续型随机变量,定义分布函数;F(x) = P(X≤x); 概率密度函数:给定X是随机变量,如果存在一个非负函数f(x),使得对任意实数a,b(ab)有 P(a<X≤b) = ∫f(x)dx, (积分下限是a,上限是b) ,则称f(x)为X的概率密度函数。;样本空间的划分 ;全概率公式;说明: 全概率公式的主要用途在于它可以将一个复杂事件的概率计算问题,分解为若干个简单事件的概率计算问题,最后应用概率的可加性求出最终结果。;贝叶斯公式 ;Bayes公式的意义; 三、贝叶斯分类器;确定性分类和随机性统计分类 以两类分类问题来讨论,设有两个类别ω1和ω2,理想情况, ω1和ω2决定了特征空间中的两个决策区域。 确定性分类: 我们任取一个样本x,当它位于ω1的决策区域时,我们判别x ∈ω1;当它位于ω2的决策区域时,我们判别x ∈ω1。也可以说:当x位于ω1的决策区域时,它属于ω1的概率为1,属于ω2的概率为0。 随机性统计分类: 如我们任取一个样本x,当它位于ω1的决策区域时,它属于ω1的概率为小于1,属于ω2的概率大于0,确定性分类问题就变成了依照概率判决规则进行决策的统计判别问题。;先验概率、后验概率和类(条件)概率密度: 先验概率: 根据大量样本情况的统计,在整个特征空间中,任取一个特征向量x,它属于类ωj的概率为P(ωj),也就是说,在样本集中,属于类ωj的样本数量于总样本数量的比值为P(ωj)。我们称P(ωj)为先验概率。 显然,有: P(ω1)+ P(ω2)+…… +P(ωc)=1 如果没有这一先验知识,那么可以简单地将每一候选类别赋予相同的先验概率。不过通常我们可以用样例中属于类ωj的样例数|ωj|比上总样例数|D|来近似,即;后验概率: 当我们获得了某个样本的特征向量x,则在x条件下样本属于类ωj的概率P(ωj|x)称为后验概率。 在得到信息之后再重新加以修正的概率叫做后验概率, 后验概率就是我们要做统计判别的依据。 类(条件)概率密度: P(x|ωj)是指当已知类别为ωj的条件下,看到样本x出现的概率。 若设x = a1,a2…am,则P(x|ωj)= P(a1,a2…am| ωj) ;后验概率的获得: 后验概率是无法直接得到的,因此需要根据推理计算由已知的概率分布情况获得。 根据贝叶斯公式可得: ;贝叶斯分类原理: 根据已知各类别在整个样本空间中的出现的先验概率,以及某个类别空间中特征向量X出现的类条件概率密度,计算在特征向量X出现的条件下,样本属于各类的概率,把样本分类到概率大的一类中。 利用贝叶斯方法分类的条件: 各类别总体的概率分布是已知的; 要分类的类别数是一定的;; 癌细胞识别,两类别问题——细胞正常与异常 若仅利用先验概率进行分类 统计的角度得出的两类细胞的出现概率 无法实现正常与异常细胞的分类目的 先验概率提供的信息太少,要结合样本观测信息,为此需要利用类条件概率 ;例:细胞识别问题 ω1正常细胞,ω2癌细胞 经大量统计获先验概率P(ω1),P(ω2)。;最小错误率贝叶斯分类: 用ωj和ωj分别表示两种不同的类型,用P(ω1)和P(ω2)分别表示各自的先验概率,用p(x|ω1)和p(x|ω2)分别表示两个类概率密度。根据全概率公式,样本x出现的全概率密度为:; 这样,我们就规定样本x归属于后验概率较高的那种类型,即 利用贝叶斯公式,可以得到最小错误率贝叶斯判别规则的等价形式: 上述两个公式,也可以推广

文档评论(0)

wuyoujun92 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档