哈工大模式识别绪论分析.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一、数据获取 数据获取环节主要是由不同形式的传感器构成,实现信息获取与信息在不同媒体之间的转换。 在现阶段计算机都只能处理某种形式的电信号,而待识别的样本大都是非电信息,需要转换成电信号。 --- 话筒将声音信号转换成电信号 ----景物信息在摄像机靶面成像并转换成二维的象素矩阵 二、预处理 预处理主要是指去除所获取信息中的噪声,增强有用的信息,及一切必要的使信息纯化的处理过程。 如图象处理:二值化,图象的平滑,变换,增强,恢复,滤波等    三、特征选择和提取 将所获取的原始量测数据转换成能反映事物本质,并将其最有效分类的特征表示。 输入:原始的量测数据(经过必要的预处理)。 输出:将原始量测数据转换成有效方式表示的信息,从而使分类器能根据这些信息决定样本的类别。 对所获取的信息实现从测量空间(原始数据组成的空间)到特征空间(分类识别赖以进行的空间)的转换 。 测量空间 原始数据是由所使用的量测仪器或传感器获取的,这些数据组成的空间叫测量空间。 特征空间 待识别的样本及模式都是用特征进行描述的,识别与训练都是在特征空间中进行的。 例:印刷体数字识别 向量表示 一个数字往往用一个N×M的数组表示。如果N=5,M=7,则一个数字就用5×7共35个网格是黑是白来表示。如令黑为“1”,白为“0”,一个数字就可用35维的二进制向量表示。 优点:简单。 缺点: 稳定性差。这种表示与网格的大小、字的笔划粗细、以及字在网格中的位置及转向有关。 结构(笔划)表示 也就是将它分成一横加上一斜杠表示。这种表示方法属于结构表示法范畴。 没有前一种方法的缺点。 提取这种结构信息也不是一件容易方便的事 四、分类器设计与分类决策 模式识别系统工作的两种方式 训练方式和分类决策方式 分类器设计:将该特征空间划分成由各类占据的子空间,确定相应的决策分界。 分类决策:是指分类器在分界形式及其具体参数都确定后,对待分类样本进行分类决策的过程。 例:汽车车牌识别 从摄像头取得彩色的包含车牌的图像。 车牌定位和抽取。 字符分割与识别。 §1.3 模式识别的一些基本问题  一、学习 二、模式的紧致性 三、相似性度量 一、学习 人的学习过程 在日常生活中进行模式识别的活动从学习过程中掌握了很强的分辨事物的能力。 机器的学习过程 使用包含各种类别的训练样本 勾画出各类事物在特征空间分布的规律性 确定使用分类的具体数学公式及其参数 例:两类训练样本圆形分布 分类函数类型的确定:圆形的分布与线性方程。一般来说,决定使用什么类型的分类函数往往是人为决定的。 数学式子中参数的确定 是一种学习过程。如果当前采用的分类函数会造成分类错误,利用错误提供应如何纠错的信息,纠正分类函数。 分类器设计:求解优化问题的过程 模式识别中的学习与训练是从训练样本提供的数据中找出某种数学式子的最优解,这个最优解使分类器得到一组参数,按这种参数设计的分类器使人们设计的某种准则达到极值。 分类器参数的选择或者学习过程得到的结果取决于设计者选择什么样的准则函数。不同准则函数的最优解对应不同的学习结果,得到性能不同的分类器。 二、模式的紧致性 分类器设计难易程度与模式在特征空间的分布方式有密切关系 临界点:处于两类的边界上的点为临界点。 内点:非临界点。 临界点与内点 紧致集,具有下列性质: (1)临界点的数量与总的点数相比很少。 (2)集合中任意两个内点可以用光滑线连接,在该连线上的点也属于这个集合。 (3)每个内点都有一个足够大的邻域,在该领域中只包含同一集合中的点。 形象说法:不要混迭,分界面干净利索 影响数据紧致性的因素 数据本身特性 ----- 如手写体数字 数据描述方法 -----印刷体数字的网格表示 特征提取:改善数据紧致性 许多问题在测量空间上不满足紧致性。 若可分:通过某种变换,使其在特征空间中可分。具有紧致性 特征提取的任务就是找到这样一种变换。 三、相似性度量 在特征空间中用特征向量描述样本的属性,就是把相似性度量用距度离量表示。 同类样本应具有聚类性,或紧致性好 不同类别样本应在特征空间中显示出具有较大的距离。 统计模式识别各种方法实际上都是直接或间接以距离度量为基础的。 两个样本xi ,xj之间的相似度量满足以下要求: ① 应为非负值 ② 样本本身相似性度量应最大 ③ 度量应满足对称性 ④ 在满足紧致性的条件下,相似性应该是点间距离的单调函数 常用的距离度量 欧氏距离 差的绝对值总和 向量夹角 模式识别发展历史 1929年 G. Tauschek发明阅读机 ,能够阅读0-9的数字。 30年代 Fisher提出

文档评论(0)

boss + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档