模式识别结题论文——基于聚类算法和线性判决器的模式分类问题分析.doc

模式识别结题论文——基于聚类算法和线性判决器的模式分类问题分析.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
模式识别结题论文——基于聚类算法和线性判决器的模式分类问题分析精要

基于聚类算法和线性判决器的模式分类问题分析 一、模式分类概述 一个典型的模式识别系统如图1所示,由数据获取、预处理、特征提取、分类决策及分类器设计五部分组成。一般分为上下两部分:上部分完成未知类别模式的分类;下半部分属于分类器设计的训练过程,利用样品进行训练,确定分类器的具体参数,完成分类器的设计。而分类决策在识别过程中起作用,对待识别的样品进行分类决策。 模式识别系统组成单元功能如下: (1)数据获取 用计算机可以运算的符号来表示所研究的对象,一般获取的数据类型有一下几种。 二维图像:文字、指纹、地图、照片等。 一维波形:脑电图、心电图、季节震动波形等。 物理参量和逻辑值:体温、化验数据、参量正常与否的描述。 (2)预处理 对输入测量仪器或其他因素所造成的退化现象进行复原、去噪声,提取有用信息。 (3)特征提取和选择 对原始数据进行变换,得到最能反映分类本质的特征。将维数较高的测量空间(原始数据组成的空间)转变为维数较低的特征空间(分类识别赖以进行的空间)。 (4)分类决策 在特征空间中用模式识别方法把被识别对象归为某一类别。 (5)分类器设计 基本做法是在样品训练基础上确定判别函数,改进判别函数和误差检验。 二、具体分类方法概述 2.1 聚类 聚类分析是将数据分类到不同的类或者簇的过程,聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。 本课题中主要讨论层次聚类和C均值聚类方法。 2.1.1 层次聚类 在描述基本思想之前,假设 是将要聚类的l维向量集。 层次聚类算法产生一个嵌套聚类的层次。更具体地说,这些算法包含N步,与数据向量的数量一样多。在第t步,要在前t-1步的聚类基础上生成新聚类。有两种不同的算法:合并和分裂层次算法。 合并算法中,初始聚类 由N个聚类组成,每个聚类仅包含X中的一个元素。第一步生成聚类 ,它包含N-1个集合,如 。重复此过程直到产生最后一个聚类 ,它只包含一个单个的聚类集合,即数据集X。因而得到聚类的层次为 分裂算法与合并算法的思路恰好相反。在这种算法中,初始聚类 仅包括一个集合X。第一步产生聚类 ,它由 个集合组成,如 。重复此过程直到产生最后一个聚类 ,它包含N个集合,每个集合仅包含X中的一个元素,在这种情况下可得 本课题中采用合并算法中的最短距离法。层次聚类算法原理为: N个初始模式样本自成一类,即建立N类,之后按照以下步骤运算: Step1:计算各类之间(即各样本间)的距离,得一个维数为N×N的距离矩阵D(0)。“0”表示初始状态。 Step2:假设已求得距离矩阵D(n)(n为逐次聚类合并的次数),找出D(n)中的最小元素,将其对应的两类合并为一类。由此建立新的分类: Step3:计算合并后所得到的新类别之间的距离,得D(n+1)。 Step4:跳至第2步,重复计算及合并。 直到满足下列条件时即可停止计算: ①取距离阈值T,当D(n)的最小分量超过给定值 T 时,算法停止。所得即为聚类结果。 ②或不设阈值T,一直到将全部样本聚成一类为止,输出聚类的分级树。 2.1.2 C均值算法 C均值算法首先取定C个类别数量并对这C个类别数量选取C个聚类中心,按最小距离原则将各模式分配到C类中的某一类,之后不断地计算类心和调整各模式的类别,最终使各模式到其对应的判属类别中心的距离平方之和最小。 上述算法也可以先初始化聚类中心,然后再执行迭代过程。算法性能依赖于初始聚类中心。 2.2 线性判决器 在特征空间中,通过学习,不同的类别可以得到不同的判别函数,比较不同类别的判别函数值大小,就可以进行分类。统计模式识别方法把特征空间划分为决策区对模式进行分类。一个模式类同一个或几个决策区相对应。每个决策区对应一个判别函数。对于特征空间中的每个特征向量x,可以计算相应于各个决策区的判别函数gi(x),i=1,2,…,c。用判别函数进行分类的方法就是:若对所有的i均有gi(x)≥gi(x),则把x分为第j类,记成r(x)=j。 本课题中选用最小欧式距离判别准则设计线性分类器: ; ; 判别函数: ; ; 三、实验部分 3.1 实验一 区分图片中的汽车与背景 首先,对样本进行解释:每个样本的特征有252个,其中前12个为第四层高频系数,中间48个是第三层高频系数,后192个是第二层高频系数。所以可以考虑从252维特征中选取不同的多个

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档