模式识别补充整理-long.doc

下载文档 降价啦

99
0
约1.07万字
约 19页
2017-01-12 发布于重庆
举报
版权申诉
保障服务

模式识别补充整理-long.doc

1、本文档共19页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

模式识别补充整理-long

1.模式的概念存在于时间和空间中可观察的事物，如果我们可以区别它们是否相同或是否相似，都可以称之为模式。模式所指不是事物本身，而是我们从事物获得的信息。模式就是要让机器自动识别的事物。用模式识别的术语来说，所见的具体事物是样本，通过对具体的个别事物进行观测所得到的具有时间和空间分布的信息称为模式，把模式所属的类别或同一类中模式的总体称为模式类(或简称类)。模式识别的关键：找到有效地度量不同类事物的差异的方法是最关键的。让机器辨别事物的最基本方法是计算，原则上讲是对计算机要分析的事物与作为标准的称之为“模板”的相似程度进行计算。 1.3 模式识别的主要方法 1.基于知识的方法基本思想：根据人们已知关于研究对象的知识，整理出若干描述特征与类别间关系的准则，建立一定的计算机推理系统，对未知样本通过这些知识推理决策其类别。（句法模式识别可看作特殊的基于知识的模式识别方法。） 2.基于数据的方法基本思想：确定了描述样本所采用的特征之后，收集一定数量的已知样本，用这些样本作训练集来训练一定的模式识别机器，使之在训练后能够对未知样本进行分类。（主要的方法，基础是统计模式识别。） 2.4 ROC曲线 ROC曲线是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系，它通过将连续变量设定出多个不同的临界值，从而计算出一系列敏感性和特异性，再以敏感性为纵坐标、（1-特异性）为横坐标绘制成曲线，曲线下面积越大，诊断准确性越高。ROC曲线越靠近左上角,试验的准确性就越高。最靠近左上角的ROC曲线的点是错误最少的最好阈值，其假阳性和假阴性的总数最少。传统的诊断试验评价方法有一个共同的特点，必须将试验结果分为两类，再进行统计分析。ROC曲线的评价方法与传统的评价方法不同，无须此限制，而是根据实际情况，允许有中间状态，可以把试验结果划分为多个有序分类，如正常、大致正常、可疑、大致异常和异常五个等级再进行统计分析。因此，ROC曲线评价方法适用的范围更为广泛。 5.3 线性判别函数的实现 ①方程的形式（固定为线性，维数和形式已定）②方程的系数。如何确定线性判别函数的系数： 1）首先按需要确定一准则函数J，如Fisher准则、感知器算法、LMSE算法。 2）确定准则函数J达到极值时及的具体数值； 3）确定判别函数，完成分类器设计。线性分类器设计任务是在给定样品集条件下，确定线性判别函数的各项系数，对待测样品进行分类时，能满足相应的准则函数J为最优。 5.4感知器算法判别函数可写成一般方程形式训练过程就是对判断好的样品集求解权矢量W，即根据已知类别的样品求出权系数，形成判别界线（面），再对未知类别的样品求出其类别。感知器代价：准则函数以使错分类样本到分界面距离之和最小为原则。感知器算法的特点 ①当样本线性可分情况下，学习率合适时，算法具有收敛性； ②收敛速度较慢； ③当样本线性不可分情况下，算法不收敛，且无法判断样本是否线性可分。单个感知器神经能够完成线性可分数据的分类问题，是一种最简单的可学习机器，它无法解决非线性问题。 5.5 最小平方误差算法(LMSE) LMSE方法的基本思想是将求解线性不等式组的问题转化为求解线性方程组：准则函数求解：1）伪逆法求解 2）梯度下降法求解 LMSE算法特点 ①算法的收敛依靠η(k)的衰减，一般取η(k)=η(1)/k； ②算法对于线性不可分的训练样本也能够收敛于一个均方误差最小解； ③取b=1时，当样本数趋于无穷多时，算法的解以最小均方误差逼近贝叶斯判别函数； ④当训练样本线性可分的情况下，算法未必收敛于一个分类超平面。 5.6 Fisher分类把模式样本在高维的特征向量空间里投影到一条直线上，然后在此一维空间上进行分类。Fisher法即找到某个最好的方向，使样本投影到这个方向的直线上是最容易分得开的。最好的投影方向：使投影以后两类尽可能分开，而各类内部又尽可能聚集。 Fisher准则函数：（投影以后的空间） 6.1 线性支持向量机最优超平面：一个超平面，如果它能够将训练样本没有错误地分开，并且两类训练样本中离超平面最近的样本与超平面中间的距离是最大的，则把这个超平面称作最优超平面。线性分类器的间隔：到超平面最近的样本