- 1、本文档共170页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[工学]模式识别讲义新
中国民航大学信息工程学院 张良 一、模式识别课程简介 什么是模式识别? 模式识别系统构成 特征与模式 模式识别基本方法 分类器设计过程举例 一些文献中对模式识别的解释 “将某一对象或者事件归到预先定义的类。” “在一个高维特征空间中进行概率密度函数的估计,并进而将特征空间划分成子空间,分别对应不同的类。” “由给定的若干已知类别的样本数据,设计对未来样本的分类方法。” “一门关于对测量值进行描述和分类的科学。” “给观测向量x赋名字w。” “模式识别旨在回答 “这是什么?”” 模式识别问题举例(一) 机器视觉(Machine vision) ATR(比如工业上识别工件,军事上识别地面目标等) 字符识别(Character recognition) 1、邮件自动分捡 2、银行票据处理 3、文本图像扫描识别 模式识别问题举例(二) 计算机辅助诊断(Computer aided diagnosis) 1、医学图像分析 (比如X射线乳腺癌检查中错误否定概率为10-20%,经过计算机分析可以避免2/3的错误。) 2、心电图、脑电图分析 语音识别(Speech recognition) 1、人机接口 2、访问控制 模式识别系统构成 量测设备(传感器) 预处理机制 特征提取机制 分类算法 训练样本集 特征与模式(1) 特征是指任何可将对象区分开来的外观或特质。特征可以表示为符号或者数字。 d种特征组合在一起构成一个d维列向量,称做特征向量。 特征向量确定的d维空间称做特征空间。 待分类的对象表示为特征空间中的点,这样的表示方法称作散点图。 “模式”指的是某个待分类对象的特征向量及其所属的类: 特征与模式(2) 特征向量的选择原则: 1、同一类的样本应当具有相似的特征向量; 2、不同类的样本的特征向量具有较大差别。 特征与模式(3) 分类器 分类器把特征空间划分成不同的类所对应的决策域,决策域之间的边界称为决策边界。 分类器可表示为一组判别函数(c个,c是类别数) 模式识别方法分类 统计模式识别——基于特征统计模型 这里的特征统计模型是一组“类条件概率密度函数”,意思是给定了c类中的某一类后,特征向量的统计分布。 神经网络模式识别——基于神经网络 不需要关于概率分布的先验知识,由训练过程得出分类器; 只要有足够多的网络层和神经元,ANN能够逼近任意复杂的决策域形状。 结构模式识别——基于句法分析和结构匹配 先将模式分解为若干子模式,再对其结构关系进行描述、分析。 多类问题 分类器设计 数据采集 特征选择与提取 方法选择 训练分类器 分类器性能评价 设计过程举例:大马哈鱼?海鲈鱼? 数据采集:摄像头获取传送带上鱼的图像 预处理:1、调整图像的平均亮度水平;2、分割图像将鱼从背景中分离;3、其它预处理。 特征选择和特征提取:统计得知海鲈鱼平均比大马哈鱼要长一些,因此从分割图像中估计出鱼的长度,作为分类用的特征。 设计分类器:分别收集两种鱼的样本集,估计出两类鱼的长度的概率分布(类条件概 率密度)。确定使分类错误概 率最小的决策边界(门限值), 最后由概率分布可估计出该分 类器的错误概率约为40%。 性能有待提高。 改进方案:研究其它的特征,如鱼的宽度、面积、眼睛的位置,发现这些特征的可分性不好。最后发现一个类别可分性好的特征——鳞片的平均大小。 错误率之外——错误造成的损失(代价) 大马哈鱼比海鲈鱼的市场价格更高,味道更好。 因此如果大马哈鱼被当作海鲈鱼 卖给大家,厂家会有些经济损失。 而如果海鲈鱼被错分为大马哈鱼,公司信誉就要受损,会被 认为是欺诈行为,后果更加严重。 因此若从降低损失的角度考虑,则 应当适当调整决策边界的位置,宁 可将更多的大马哈鱼错分为海鲈 鱼,也要减少将海鲈鱼错分为大马 哈鱼的概率。 决策边界位置调整后,总的错误率增加了,但是降低了损失。 算法的推广性问题:多层神经网络可以逼近任意复杂的决策边界,因而有可能设计一个分类器,将训练样本完全分开: 二、贝叶斯决策理论 似然比检测 (Likelihood ratio test) 错误率 贝叶斯风险 正态分布时的贝叶斯统计决策 已知观测值(特征向量)X,一种合理的分类规则显然应当是:将X归入它最有可能属于的那一类,从而使错误概率达到最小。也就是说应当比较各个类的后验概率 ,寻找最大的 。 以两类问题为例,决策规则应当是: 或者写为更加紧凑的形式: 应用贝叶斯公式 进一步变为 比值 称为似然比,以符号 表示。 这种利用似然比检测的决策方法称为基于最小错误率的贝叶斯决策。 例:两类的类条件概率密度为
文档评论(0)