[工学]02贝叶斯决策理论.pptVIP

  • 0
  • 0
  • 约2.68千字
  • 约 36页
  • 2018-03-28 发布于浙江
  • 举报
[工学]02贝叶斯决策理论

模式识别 ——贝叶斯决策理论 马勤勇 mqy_mail@163.com 一 最简单的贝叶斯分类算法 还使用前面的例子:鲈鱼(sea bass)和鲑鱼(salmon)。 使用一个特征亮度对这两种鱼进行表示。 新来了一条鱼特征是x(亮度),怎么根据特征x确定它到底是鲈鱼ω1还是鲑鱼ω2? 已知数据:鲈鱼类标号ω1,鲑鱼类标号ω2。鲈鱼总数量占所有鱼总数量的比率为P(ω1),鲑鱼总数量占所有鱼总数量的比率为P(ω2)。由鲈鱼的分布得知这条鱼的亮度x在分类为鲈鱼时出现的概率为p(x|ω1),由鲑鱼的分布得知这条鱼的亮度x在分类为鲑鱼时出现的概率为p(x|ω2)。 如何求解?可以求出x属于鲈鱼ω1的概率P(ω1|x)和x属于鲑鱼ω2的概率P(ω2|x)。如果P(ω1|x)P(ω2|x),就认为x是鲈鱼。现在的问题是如何求P(ω1|x)和P(ω2|x)。 有一个概率公式: 如果p(ω1|x)p(ω2|x),那么就认为x属于ω1,即这条鱼是鲈鱼。同理于: 二 贝叶斯决策算法 上面的分类有几个主要限制: 特征向量中只包含一个特征:亮度。 只有两个类别:鲈鱼和鲑鱼。 仅仅允许分类,而不是根据分类采取行动。同时,没有加入损失控制:例如鲈鱼比鲑鱼贵。如果鲈鱼的罐头里装入了鲑鱼,那么客户会很生气;如果鲑鱼的罐头里装入了鲈鱼,那么客户很难感到有损失。那么这个时候分类后采取的行动就要偏向于便宜的鲑鱼。 下面就看突破这几个限制的比较通用的贝叶斯分类器是什么样的。 为了解决第一个显示,使用向量x代替原来的单变量x。x就叫做特征向量。比如鲈鱼鲑鱼分类的例子中,可以设计这样一个特征向量(x1,x2),其中x1表示亮度,x2表示长度。 定义类别总共有c个:{ω1,ω2…,ωc},第j个分类为ωj。 此时,x属于类别ωj的概率依然用这个公式计算: 举例:贝叶斯决策算法在两类问题中的决策。 那么当 三 判别函数 在模式识别里,经常用gi(x)来表示x属于第i个类别的可能性。 如果对于所有的j!=i都有:gi(x)gj(x),那么认为x属于第i个类别ωi。 比如令gi(x)=-R(αi|x)。 上面是一个不等式关系,如果不等式两边都乘以相同的正数,或加上相同的树,或取自然对数。那么不等式的关系是不变的。因此不考虑损失时的贝叶斯判别函数: 四 正态分布 贝叶斯公式中的p(x|ωj)是条件概率,代表在类别为ωj时,x的概率。比如在ωj为鲈鱼时,一个特定亮度x的概率。条件概率分布中常见的一个分布是高斯分布(正态分布)。 正态分布是最重要的一种概率分布。正态分布概念是由德国的数学家和天文学家Moivre于1733年首次提出的,但由于德国数学家Gauss(Carl Friedrich Gauss,1777—1855)率先将其应用于天文学家研究,故正态分布又叫高斯分布。 高斯分布的形状是钟形曲线。 很多随机变量的概率分布都可以近似地用正态分布来描述。例如: 同一种生物体的身长、体重等指标; 百度高个吧投票的身高分布: 在生产条件不变的情况下,产品的强力、抗压强度、口径、长度等指标; 同一种种子的重量; 测量同一物体的误差; 某个地区的年降水量; 学生的智力水平,包括学习能力,实际动手能力等呈正态分布。 单变量正态分布的 概率密度函数 : 其中μ是均值,σ是标准差。 均值就是所有数的平均数,就是把所有数都加起来再除以个数 σ2方差就是把每个数减去它们的平均数再平方,把这些平方加起来再除以个数。方差表示统计数据的离散程度。 经常可以把上面的公式简写成:p(x)~N(μ,σ2)。 多变量正态分布的 概率密度函数 : 其中μ是d维平均向量。Σ是d*d的协方差矩阵。|Σ|是它的行列式,Σ-1是它的转置。 经常可以把上面的公式简写成:p(x)~N(μ,Σ)。 五 正态分布下的判别函数 将多变量正态分布公式带入下面的判别函数: 1. Σi=σ2I 当所有变量都相互独立,且每个变量的方差都是σ2的时候,所有的协方差矩阵都相等:Σi=σ2I。 此时,判别函数简化成了: 当p(ωi)与p(ωj)相等的时候,一二三维高斯分布: 如下求分割线x的位置: 当p(ωi)与p(ωj)不相等的时候, 一二三维高斯分布: 2. Σi=Σ 当所有类别的协方差矩阵Σi都相等的时候,说明所有类别的正态分布具有同样的形状。 此时,判别函数又可以简化成一个线性判别函数器。 3. Σi不固定 此时基本就没有什么可化简的了。 * * 从而推出: 换一种写法: 这就是著名的贝叶斯公式。其中P(ωj)叫做先验概率,就是类别出现的可能性;p(x|ωj)叫条件概率,就是在ωj时x出现的可能性;p(ωj|x)叫后验概率;p(x)是该样例出现的可能性。 因此: 对于上面的问题: 这几个基本数据都已经给出了

文档评论(0)

1亿VIP精品文档

相关文档