- 1、本文档共28页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Pattern Recognition Methods Using Supervised Learning基于监督学习的模式识别方法模式与模式识别模式:模式是对某些感兴趣的客体的定量的或结构的描述,模式类是具有某些共同特性的模式的集合。在模式识别学科中,常常不区分“模式”和“模式类”模式识别:把对象根据其特征划分到若干类别中适当的一类模式指的并不是事物本身,而是对事物的一种描述,也就是我们从事物获得的信息模式识别的过程就是建立分类器的过程一些模式识别的例子:语音识别,字符与文字识别,人脸识别等等模式识别的方法模式识别方法主要分为基于知识的方法和基于数据的方法基于知识的方法:根据人们已知的关于研究对象的知识,整理出若干描述特征与类别关系的准则,对未知样本通过这些知识推理决策其类别。主要利用先验的知识基于数据的方法:不利用先验知识,完全依靠训练样本来建立样本与模式之间的联系,属于一种机器学习的分类方法。基于数据的方法是模式识别最主要的方法y对象GxSy’LM基于数据的模式识别方法基于数据的模式识别方法可以分为两种:监督模式识别和非监督模式识别监督模式识别:基于一定数量的类别已知的训练样本建立分类器,也是模式识别的主要方法非监督模式识别:事先不知道要划分什么类别,更没有类别已知的样本用作训练,主要进行聚类分析监督模式识别方法贝叶斯决策法核心思想:根据对象归于某个模式的概率来进行决策分类问题:已知对象的特征x,以及n个类别ω1~ωn,求对象属于哪个类别贝叶斯公式:P(ωi):先验概率p(x|ωi):类条件概率密度p(x):总体概率密度P(ωi|x):后验概率贝叶斯决策法最小错误率决策法样本的错误率:决策的错误率:样本错误概率的期望最小错误率决策法即让P(e)达到最小。由于p(x)是固定的,所以等价于对于所有x都让P(e|x)取最小。由样本x的错误率计算公式可知,最小错误率决策等价于如下一种决策:若则贝叶斯决策法最小错误率决策法根据贝叶斯公式:?即根据的最大值来进行分类决策?关键点:类条件概率密度的计算方法?重点讨论离散概率模型下的概率估计方法贝叶斯决策法朴素贝叶斯分类器朴素贝叶斯分类器(Naive Bayes Classifier):假定特征各分量是相互独立的,因此类条件概率可写为即根据 的最大值来进行分类决策贝叶斯决策法朴素贝叶斯分类器假定要计算该样本属于“3”的概率步骤一,通过训练样本估计先验概率P(“3”)步骤二,通过训练样本估计P(1,3=1|”3”), P(1,4=1|”3”),…步骤三,通过独立假设计算类条件概率P(样本|“3”) =P(1,3=1|”3”)* P(1,4=1|”3”)…步骤四,P(“3”|样本)~P(“3”)*P(样本|“3”)贝叶斯决策法朴素贝叶斯分类器P(1,3=1|”3”)可以采用最大似然估计:若采用最大似然估计,朴素贝叶斯分类器对于稀疏数据非常敏感设想若训练样本中所有“3”在1,3处都没有值,那么计算得到的后验概率等于零!改用其他估计方法来进行平滑处理!贝叶斯决策法拉普拉斯估计假如投一次硬币,正面朝上,如何估计正面朝上的概率?假如投100次硬币,有80次正面朝上,如何估计正面朝上的概率?假如投100万次硬币,有80万次正面朝上,如何估计正面朝上的概率?启发:1.在进行估计之前,我们有一些先验的期望2.若样本数量很少,我们应该更依赖先验期望3.若样本数量很多,我们应该更依赖数据|X|为x的取值个数,k为待定参数贝叶斯决策法NBC的优缺点优点:算法复杂度低,不要求很大的训练样本数量缺点:要求特征分量满足条件独立条件,但很多时候这种条件不能满足改进:树增广朴素贝叶斯分类器(TAN);贝叶斯增广朴素贝叶斯分类器(BAN)贝叶斯决策法依赖于样本的概率密度模型,当概率密度模型难以估计时很难建立分类器。判别函数法核心思想:根据训练样本确定一个判别函数g(x),根据g(x)的值来对未知样本进行分类线性分类器:判别函数的形式是线性的两类情况: 多类情况:非线性分类器:判别函数的形式是非线性的核心问题是如何根据训练样本确定权向量和阈值向量线性分类器Fisher线性判别核心思想:使投影后两类相隔尽量远,而同时每一类内部的样本又尽可能聚集。通过最优化方法求解该最优投影方向Fisher线性判别法只能得到最优投影方向即权向量,阈值向量需要进一步求解线性分类器感知器算法回顾线性判别函数把 把权向量 则线性判别函数可以改写为判别决策可以改写为若则;若则?线性分类器感知器算法线性可分:对于一组样本,若存在使得对于任一样本若则,若则,那么称样本是线性可分的定义新变量,当时=,当时=,那么线性可分条件变成存在使得?可以使用迭代方法求解线性分类器感知器算法?感知器算法:用最速下降
文档评论(0)