- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
模式识别结题论文——基于聚类算法和线性判决器的模式分类问题分析精要
基于聚类算法和线性判决器的模式分类问题分析
一、模式分类概述
一个典型的模式识别系统如图1所示,由数据获取、预处理、特征提取、分类决策及分类器设计五部分组成。一般分为上下两部分:上部分完成未知类别模式的分类;下半部分属于分类器设计的训练过程,利用样品进行训练,确定分类器的具体参数,完成分类器的设计。而分类决策在识别过程中起作用,对待识别的样品进行分类决策。
模式识别系统组成单元功能如下:
(1)数据获取
用计算机可以运算的符号来表示所研究的对象,一般获取的数据类型有一下几种。
二维图像:文字、指纹、地图、照片等。
一维波形:脑电图、心电图、季节震动波形等。
物理参量和逻辑值:体温、化验数据、参量正常与否的描述。
(2)预处理
对输入测量仪器或其他因素所造成的退化现象进行复原、去噪声,提取有用信息。
(3)特征提取和选择
对原始数据进行变换,得到最能反映分类本质的特征。将维数较高的测量空间(原始数据组成的空间)转变为维数较低的特征空间(分类识别赖以进行的空间)。
(4)分类决策
在特征空间中用模式识别方法把被识别对象归为某一类别。
(5)分类器设计
基本做法是在样品训练基础上确定判别函数,改进判别函数和误差检验。
二、具体分类方法概述
2.1 聚类
聚类分析是将数据分类到不同的类或者簇的过程,聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。
本课题中主要讨论层次聚类和C均值聚类方法。
2.1.1 层次聚类
在描述基本思想之前,假设 是将要聚类的l维向量集。
层次聚类算法产生一个嵌套聚类的层次。更具体地说,这些算法包含N步,与数据向量的数量一样多。在第t步,要在前t-1步的聚类基础上生成新聚类。有两种不同的算法:合并和分裂层次算法。
合并算法中,初始聚类 由N个聚类组成,每个聚类仅包含X中的一个元素。第一步生成聚类 ,它包含N-1个集合,如 。重复此过程直到产生最后一个聚类 ,它只包含一个单个的聚类集合,即数据集X。因而得到聚类的层次为
分裂算法与合并算法的思路恰好相反。在这种算法中,初始聚类 仅包括一个集合X。第一步产生聚类 ,它由 个集合组成,如 。重复此过程直到产生最后一个聚类 ,它包含N个集合,每个集合仅包含X中的一个元素,在这种情况下可得
本课题中采用合并算法中的最短距离法。层次聚类算法原理为:
N个初始模式样本自成一类,即建立N类,之后按照以下步骤运算:
Step1:计算各类之间(即各样本间)的距离,得一个维数为N×N的距离矩阵D(0)。“0”表示初始状态。
Step2:假设已求得距离矩阵D(n)(n为逐次聚类合并的次数),找出D(n)中的最小元素,将其对应的两类合并为一类。由此建立新的分类:
Step3:计算合并后所得到的新类别之间的距离,得D(n+1)。
Step4:跳至第2步,重复计算及合并。
直到满足下列条件时即可停止计算:
①取距离阈值T,当D(n)的最小分量超过给定值 T 时,算法停止。所得即为聚类结果。
②或不设阈值T,一直到将全部样本聚成一类为止,输出聚类的分级树。
2.1.2 C均值算法
C均值算法首先取定C个类别数量并对这C个类别数量选取C个聚类中心,按最小距离原则将各模式分配到C类中的某一类,之后不断地计算类心和调整各模式的类别,最终使各模式到其对应的判属类别中心的距离平方之和最小。
上述算法也可以先初始化聚类中心,然后再执行迭代过程。算法性能依赖于初始聚类中心。
2.2 线性判决器
在特征空间中,通过学习,不同的类别可以得到不同的判别函数,比较不同类别的判别函数值大小,就可以进行分类。统计模式识别方法把特征空间划分为决策区对模式进行分类。一个模式类同一个或几个决策区相对应。每个决策区对应一个判别函数。对于特征空间中的每个特征向量x,可以计算相应于各个决策区的判别函数gi(x),i=1,2,…,c。用判别函数进行分类的方法就是:若对所有的i均有gi(x)≥gi(x),则把x分为第j类,记成r(x)=j。
本课题中选用最小欧式距离判别准则设计线性分类器:
; ;
判别函数: ;
;
三、实验部分
3.1 实验一 区分图片中的汽车与背景
首先,对样本进行解释:每个样本的特征有252个,其中前12个为第四层高频系数,中间48个是第三层高频系数,后192个是第二层高频系数。所以可以考虑从252维特征中选取不同的多个
文档评论(0)