模式识别结题论文——基于聚类算法和线性判决器的模式分类问题分析.doc

下载文档 降价啦

6
0
约9.64千字
约 15页
2017-06-11 发布于湖北
举报
版权申诉
保障服务

模式识别结题论文——基于聚类算法和线性判决器的模式分类问题分析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

模式识别结题论文——基于聚类算法和线性判决器的模式分类问题分析精要

基于聚类算法和线性判决器的模式分类问题分析一、模式分类概述一个典型的模式识别系统如图1所示，由数据获取、预处理、特征提取、分类决策及分类器设计五部分组成。一般分为上下两部分：上部分完成未知类别模式的分类；下半部分属于分类器设计的训练过程，利用样品进行训练，确定分类器的具体参数，完成分类器的设计。而分类决策在识别过程中起作用，对待识别的样品进行分类决策。模式识别系统组成单元功能如下：（1）数据获取用计算机可以运算的符号来表示所研究的对象，一般获取的数据类型有一下几种。二维图像：文字、指纹、地图、照片等。一维波形：脑电图、心电图、季节震动波形等。物理参量和逻辑值：体温、化验数据、参量正常与否的描述。（2）预处理对输入测量仪器或其他因素所造成的退化现象进行复原、去噪声，提取有用信息。（3）特征提取和选择对原始数据进行变换，得到最能反映分类本质的特征。将维数较高的测量空间（原始数据组成的空间）转变为维数较低的特征空间（分类识别赖以进行的空间）。（4）分类决策在特征空间中用模式识别方法把被识别对象归为某一类别。（5）分类器设计基本做法是在样品训练基础上确定判别函数，改进判别函数和误差检验。二、具体分类方法概述 2.1 聚类聚类分析是将数据分类到不同的类或者簇的过程，聚类分析是一种探索性的分析，在分类的过程中，人们不必事先给出一个分类的标准，聚类分析能够从样本数据出发，自动进行分类。从实际应用的角度看，聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况，观察每一簇数据的特征，集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法（如分类和定性归纳算法）的预处理步骤。本课题中主要讨论层次聚类和C均值聚类方法。 2.1.1 层次聚类在描述基本思想之前，假设是将要聚类的l维向量集。层次聚类算法产生一个嵌套聚类的层次。更具体地说，这些算法包含N步，与数据向量的数量一样多。在第t步，要在前t-1步的聚类基础上生成新聚类。有两种不同的算法：合并和分裂层次算法。合并算法中，初始聚类由N个聚类组成，每个聚类仅包含X中的一个元素。第一步生成聚类，它包含N-1个集合，如。重复此过程直到产生最后一个聚类，它只包含一个单个的聚类集合，即数据集X。因而得到聚类的层次为分裂算法与合并算法的思路恰好相反。在这种算法中，初始聚类仅包括一个集合X。第一步产生聚类，它由个集合组成，如。重复此过程直到产生最后一个聚类，它包含N个集合，每个集合仅包含X中的一个元素，在这种情况下可得本课题中采用合并算法中的最短距离法。层次聚类算法原理为： N个初始模式样本自成一类，即建立N类，之后按照以下步骤运算： Step1：计算各类之间（即各样本间）的距离，得一个维数为N×N的距离矩阵D(0)。“0”表示初始状态。 Step2：假设已求得距离矩阵D(n)（n为逐次聚类合并的次数），找出D(n)中的最小元素，将其对应的两类合并为一类。由此建立新的分类： Step3：计算合并后所得到的新类别之间的距离，得D(n+1)。 Step4：跳至第2步，重复计算及合并。直到满足下列条件时即可停止计算： ①取距离阈值T，当D(n)的最小分量超过给定值 T 时，算法停止。所得即为聚类结果。 ②或不设阈值T，一直到将全部样本聚成一类为止，输出聚类的分级树。 2.1.2 C均值算法 C均值算法首先取定C个类别数量并对这C个类别数量选取C个聚类中心，按最小距离原则将各模式分配到C类中的某一类，之后不断地计算类心和调整各模式的类别，最终使各模式到其对应的判属类别中心的距离平方之和最小。上述算法也可以先初始化聚类中心，然后再执行迭代过程。算法性能依赖于初始聚类中心。 2.2 线性判决器在特征空间中，通过学习，不同的类别可以得到不同的判别函数，比较不同类别的判别函数值大小，就可以进行分类。统计模式识别方法把特征空间划分为决策区对模式进行分类。一个模式类同一个或几个决策区相对应。每个决策区对应一个判别函数。对于特征空间中的每个特征向量x,可以计算相应于各个决策区的判别函数gi(x),i=1,2,…,c。用判别函数进行分类的方法就是：若对所有的i均有gi(x)≥gi(x),则把x分为第j类,记成r(x)=j。本课题中选用最小欧式距离判别准则设计线性分类器：；；判别函数：；；三、实验部分 3.1 实验一区分图片中的汽车与背景首先，对样本进行解释：每个样本的特征有252个，其中前12个为第四层高频系数，中间48个是第三层高频系数，后192个是第二层高频系数。所以可以考虑从252维特征中选取不同的多个