第二章贝叶斯决策理论与统计判别方法.doc

下载文档 降价啦

32
0
约2.27万字
约 35页
2017-02-08 发布于重庆
举报
版权申诉
保障服务

第二章贝叶斯决策理论与统计判别方法.doc

1、本文档共35页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第二章贝叶斯决策理论与统计判别方法

第二章贝叶斯决策理论与统计判别方法课前思考　　1、机器自动识别分类，能不能避免错分类，如汉字识别能不能做到百分之百正确？怎样才能减少错误？　　2、错分类往往难以避免，因此就要考虑减小因错分类造成的危害损失，譬如对病理切片进行分析，有可能将正确切片误判为癌症切片，反过来也可能将癌症病人误判为正常人，这两种错误造成的损失一样吗？看来后一种错误更可怕，那么有没有可能对后一种错误严格控制？　　3、概率论中讲的先验概率，后验概率与概率密度函数等概念还记得吗？什么是贝叶斯公式？　　4、什么叫正态分布？什么叫期望值？什么叫方差？为什么说正态分布是最重要的分布之一？学习目标　　这一章是模式识别的重要理论基础，它用概率论的概念分析造成错分类和识别错误的根源，并说明与哪些量有关系。在这个基础上指出了什么条件下能使错误率最小。有时不同的错误分类造成的损失会不相同，因此如果错分类不可避免，那么有没有可能对危害大的错分类实行控制。对于这两方面的概念要求理解透彻。　　这一章会将分类与计算某种函数联系起来，并在此基础上定义了一些术语，如判别函数、决策面(分界面)，决策域等，要正确掌握其含义。　　这一章会涉及设计一个分类器的最基本方法——设计准则函数，并使所设计的分类器达到准则函数的极值，即最优解，要理解这一最基本的做法。这一章会开始涉及一些具体的计算，公式推导、证明等，应通过学习提高这方面的理解能力，并通过习题、思考题提高自己这方面的能力。本章要点　　1、机器自动识别出现错分类的条件，错分类的可能性如何计算，如何实现使错分类出现可能性最小——基于最小错误率的Bayes决策理论　　2、如何减小危害大的错分类情况——基于最小错误风险的Bayes决策理论　　3、模式识别的基本计算框架——制定准则函数，实现准则函数极值化的分类器设计方法　　4、正态分布条件下的分类器设计　　5、判别函数、决策面、决策方程等术语的概念　　6、 Bayes决策理论的理论意义与在实践中所遇到的困难知识点 §2.1 引言　　在前一章中已提到，模式识别是一种分类问题，即根据识别对象所呈现的观察值，将其分到某个类别中去。统计决策理论是处理模式分类问题的基本理论之一，对模式分析和分类器的设计起指导作用。贝叶斯决策理论是统计模式识别中的一个基本方法，我们先讨论这一决策理论，然后讨论涉及统计判别方法的一些基本问题。在描述本章所要讨论的问题之前，再提一下对于待识别的物理对象的描述问题。假设一个待识别的物理对象用其d个属性观察值描述，称之为d个特征，这组成一个d维的特征向量，而这d维待征所有可能的取值范围则组成了一个d维的特征空间。　　为了说明这句话，我们讨论一个具体的例子。假设苹果的直径尺寸限定在7厘米到15厘米之间，它们的重量在3两到8两之间变化。如果直径长度x用厘米为单位，重量y以两为单位。那么，由x值从7到15，y值从3到8包围的二维空间就是对苹果进行度量的特征空间。　　贝叶斯决策理论方法所讨论的问题是：已知总共有c类物体，也就是说待识别物体属于这c类中的一个类别，对这c类不同的物理对象，以及各类在这d维特征空间的统计分布，具体说来是各类别ωi=1,2,…,c的先验概率P(ωi)及类条件概率密度函数p(x|ωi)已知的条件下，如何对某一样本按其特征向量分类的问题。由于属于不同类的待识别对象存在着呈现相同观察值的可能，即所观察到的某一样本的特征向量为X，而在c类中又有不止一类可能呈现这一X值，这种可能性可用P(ωi|X)表示。如何作出合理的判决就是贝叶斯决策理论所要讨论的问题。下一节讨论几种常用的决策规则，接着要分析正态分布时统计决策的问题以及错误概率等问题。由于这种决策理论基于已知概率分布为前提，因此在本章还要讨论概率密度函数的估计问题。　　上一章提到机器实现自动分类有两大类方法：一种是模板匹配方法，而另一种就是对特征空间划分为子空间(每类的势力范围)的方法。本章是针对第二种方法的。核心问题是：样本为特征向量X时，它属于哪一类可能性有多大，如能确定属于各个类别的百分比(概率)，分类决策就有了依据。例如某个样本的特征向量为X，X属于第一类样本的可能性为60％，而第二类的可能性为40％。在没有任何样本信息的情况下，则应将样本决策为第一类以使错分类可能性小(40％)，这就是这一章考虑分类问题的出发点。 §2.2 几种常用的决策规则　　本节将讨论几种常用的决策规则。不同的决策规则反映了分类器设计者的不同考虑，对决策结果有不同的影响。其中最有代表性的是基于最小错误率的贝叶斯决策与基于最小风险的贝叶斯决策，下面分别加以讨论。 2.2.1 基于最小错误率的贝叶斯决策　　一般说来，c类不同的物体应该具有各不相同的属性，在d维特