统计决策手册概论.pptVIP

  • 4
  • 0
  • 约3.56千字
  • 约 56页
  • 2020-03-10 发布于江苏
  • 举报
优点: 癌细胞筛查:是癌细胞但是判断为正常细胞的风险应该比正常细胞判断为癌细胞的风险大得多 只是在最小错误率下的最优 缺点: 基于后验概率决策的贝叶斯分类器具有最小错误率 小结 最小风险贝叶斯决策 2 基本思想 使错误率最小并不一定是一个普遍适用的最佳选择。 例如:癌细胞分类,两种错误的代价(损失)不同 两种错误: 癌细胞→正常细胞 正常细胞→癌细胞 宁可扩大一些总的错误率,但也要使总的损失减少。 引进一个与损失有关联的,更为广泛的概念——风险。 在作出决策时,要考虑所承担的风险。 相关概率 损耗函数λii=λ(αi/ωi)表示模式样本X本来属于ωi类而判决为ωi类所受损失。 损耗函数λij=λ(αi/ωj)表示模式样本X本来属于ωj类错判为ωi所受损失 风险R(期望损失):对未知x采取一个判决行动α(x)所付出的代价(损耗) 条件风险(也叫条件期望损失) 在整个特征空间中定义期望风险,期望风险 最小风险贝叶斯决策 决策规则: ? 最小风险 VS 最小错误率 二类问题:把x归于ω1时风险: 把x归于ω2时风险: ? 聂曼-皮尔逊决策 3 聂曼-皮尔逊准则 聂曼-皮尔逊准则是在取某类错误率为常数时,另一类错误率尽可能小。例如: 两类错误率 Lagrange乘子法将有约束极值问题问题转化为 注:可以看出聂曼-皮尔逊决策规则与最小错误率贝叶斯决策规则都是以似然比为基础的,不同地是最小错误决策阈值为先验概率之比,而聂曼-皮尔逊决策阈值则是Lagrange乘子。 优点: ? 缺点: 必须知道类条件概率(似然) 可以设计理论上最优分类器 小结 正态分布决策理论 4 本节和前三节的关系 前三节: 基本概念 阶段性的总结 本节: 概念具体化 结合一种比较典型的概率分布来进一步分析基于最小错误贝叶斯决策分类器的种种情况 本节重点 什么叫正态分布 高斯分布的表达式 如何将正态分布与基于最小错误率的贝叶斯决策结合起来 如何简化方式表示正态分布 研究正态分布的原因 数学上比较简单 N(μ, σ 2) 只有均值和方差两个参数 物理上的合理性 单变量正态分布 单变量正态分布概率密度函数定义为 思考:正态分布,或高斯分布是先验概率P(ωi),还是分布P(X|ωi),还是后验概率P(ωi|X)? 不是我们所讨论的先验概率P(ωi),也不是后验概率P(ωi|X),而是p(x|ωi)。 (多变量)多维正态分布 性质 ①、μ与∑对分布起决定作用P(x)=N(μ, ∑), μ由n个分量组成,∑由n(n+1)/2元素组成。∴多维正态分布由n+n(n+1)/2个参数组成。 ②、等密度点的轨迹是一个超椭球面。区域中心由μ决定,区域形状由∑决定。 ③、不相关性等价于独立性。若xi与xj互不相关,则xi与xj一定独立。 ④、边缘分布与条件分布的正态性。 ⑤、线性变换的正态性Y=AX,A为线性变换矩阵。若X为正态分布,则Y也是正态分布。 ⑥、线性组合的正态性。 正态分布时最小错误率贝叶斯决策 判别函数:类条件概率密度用正态来表示: 决策面方程: 第一种情况 各个特征统计独立,且同方差情况 判别函数: 如果M类先验概率相等: 最小距离分类器 未知样本x与μi相减,找最近的μi把x归类 长沙理工大学计算机与通信工程学院 软件工程专业 软件工程专业 软件工程专业 软件工程专业 软件工程专业 软件工程专业 软件工程专业 软件工程专业 软件工程专业 软件工程专业 软件工程专业 软件工程专业 软件工程专业 第二章 统计决策方法 计算机与通信工程学院 计算机与通信工程学院 模式识别 课前思考 机器自动识别分类,能不能避免错分类 ? 怎样才能减少错误? 不同错误造成的损失一样吗? 先验概率,后验概率,概率密度函数? 什么是贝叶斯公式? 正态分布?期望值、方差? 正态分布为什么是最重要的分布之一? 学习指南 本章要说明分类识别中为什么会有错分类,在何种情况下会出现错分类?错分类的可能性会有多大?怎样才能使错分类最少? 不同的错分类造成的危害是不同的,有的错分类种类造成的危害更大,因此控制这种错分类则是更重要的。为此引入了一种“风险”与“损失”概念,希望做到使风险最小。要着重理解“风险”与“损失”的概念,以及在引入“风险”概念后的处理方法。 理解本章的关键 要正确理解先验概率,类概率密度函数,后验概率这三种概率 对这三种概率的定义,相互关系要搞得清清楚楚 Bayes公式正是体现这三者关系的式子,要透彻掌握。 统计决策理论 是模式分类问题的基本理论之一 贝叶斯决策理论 是统计决策理论中的一个基本方法 最小风险贝叶斯决策 2 聂曼-皮尔逊判决 3 最小错误率

文档评论(0)

1亿VIP精品文档

相关文档