- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二章距离分类器和聚类分析-Read.doc
第二章 距离分类器和聚类分析
2.1 距离分类器
一、模式的距离度量
通过特征抽取,我们以特征空间中的一个点来表示输入的模式,属于同一个类别的样本所对应的点在模式空间中聚集在一定的区域,而其它类别的样本点则聚集在其它区域,则就启发我们利用点与点之间距离远近作为设计分类器的基准。这种思路就是我们这一章所要介绍的距离分类器的基础。下面先看一个简单的距离分类器的例子。
例2.1
作为度量两点之间相似性的距离,欧式距离只是其中的一种,当类别的样本分布情况不同时,应该采用不同的距离定义来度量。
设为空间中的两个点,两点之间的距离,更一般的称为是范数,一个矢量自身的范数为矢量的长度。
作为距离函数应该满足下述三个条件:
对称性:;
非负性:,当且仅当;
三角不等式:。
满足上述条件的距离函数很多,下面介绍几种常用的距离定义:
设,为维空间中的两点
欧几里德距离:(Eucidean Distance)
街市距离:(Manhattan Distance)
明氏距离:(Minkowski Distance)
当时为欧氏距离,当时为街市距离。
角度相似函数:(Angle Distance)
为矢量和之间的内积,为矢量与之间夹角的余弦。
距离函数的定义形式还有很多,我们应该根据具体问题来选择一种适合的函数定义,使其能够真正反映模式之间的相似性。定义了范数的线性空间称为赋范线性空间。
二、单个标准样本的距离分类器
设有个类别,,每个类别有一个标准样本,现有一待识样本,则应该属于与其距离最小的标准样本代表的那一类,即:如果,则判别。
对于两类问题来说,就相当于用一个垂直平分两个标准样本点的连线的超平面将两类分开。
三、多个标准样本的距离分类器
如果每个类别只有一个训练样本,则只能以这个训练样本作为标准样本来设计距离分类器。然而一个样本很难反映出类别的总体分布,因此在实际设计中,一般都要尽可能多的搜集各个类别的样本,样本量的增加能够跟好的反映出类别的中体分布情况,这样带来的问题就是如何利用多个样本来设计距离分类器?下面介绍几种常用的方法。
平均样本法
此方法中,我们还希望以一个标准样本来代表每个类别,这样就可以采用单个标准样本距离分类器的准则来进行分类。下面的问题就是如何来确定这个标准样本,这实际上就是如何利用训练样本集来进行学习的问题。
在模式识别方法中,我们将经常遇到最优化问题,下面我们就以这个简单问题来介绍一下最优化方法的一些概念。
设有个类别,,第类有训练样本集,我们希望求得一个标准样本,训练样本。我们要寻找的标准样本实际上应该是一个距离训练样本集中所有样本的平均距离最小的一点,则一点最能够代表这个训练样本集。例如,如果类别样本的分布为一个球形的话,这一点应该是球的中心。
这一条件可以用下面的函数表示:,此函数称为目标函数。我们的目标就是要寻找到一个,使得最小。
以欧氏距离为例,,下面对的各维元素取偏导数:
则:。以矢量形式表示:。
平均样本法的特点是:1、算法简单;2、每个类别只需存储一个平均样本,存储量小;3、识别时只需计算次距离函数,计算量小;4、对类别样本的分布描述能力不强,效果不一定很好。
在单个样本的距离分类器中,实际上我们是定义了一个未知类别模式到某一类别的距离,这个距离就是待识模式与类别标准样本之间的距离:,然后以模式与类别的距离作为分类的判据。实际上在多个标准样本的问题中,我们还可以定义其它形式的模式与类别的距离。
平均距离法
已知类别的训练样本集为:,定义待识模式与类别的距离:
然后还是以与待识模式最近的类别作为识别结果。在平均距离法中,需要存储所有的训练样本,而且在识别时还要计算待识模式与每个训练样本的距离,所以计算量比较大。
最近邻法
最近邻法以与待识样本距离最近的标准样本点的类别作为分类类别。实际上相当于定义待识模式与类别的距离:
最近邻法也要存储和计算所有的训练样本,同时与平均距离法相比容易受到噪声的干扰,当与最近点为噪声时,就会导致误识。
最近邻法的改进:
平均样本法用一点代表一个类别,过分集中;最近邻法以类内的每一点代表类别,过于分散,在通常情况下可以采用折衷的办法,首先将每个类别的训练样本划分为几个子集,在各个子集中计算平均样本,每一个类别以几个子集的平均样本代表,采用最近邻法分类。(举例:红苹果,绿苹果),这样做的好处是,一方面可以减少存储量和计算量,同时还可以减小噪声的干扰,这是在实际系统使用比较多的方法。
-近邻法
-近邻法是另外一种减小噪声干扰的改进方法,它不是根据与未知样本最近的一个样本的类别来分类,而是根据最近邻的各样本点中多数点的类别来分类。方法如下:
计算与所有训练样本的距离;
对所有的从小到大排序;
统计前个中各类训练样本的个数,,必有;
取作为的类别。
-近邻法中,值得选择非常重要,太大
文档评论(0)