第4章分类技术.doc

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第章 我们平常所说的“按某某分类”,就是指按事物的某个属性的取值进行分类。例如,按性别将人分为男、女,就是根据人的性别属性的取值“男”或“女”将人分为两类。这种能够利用单个属性的取值即能区分事物的分类很简单,但很多情况不是这样,例如如何根据动物的生活习性进行分类? 考虑对人们对事物的分类过程,可以概括为以下步骤: (1)对事物抽象,得出能够描述事物的关键属性; (2)提取或计算事物关键属性的取值征; (3)根据事物的关键属性取值对事物分类。 事物的关键属性的取值常作为判别事物的特征。根据事物的特征对事物分类有两种情况:已经预先分好了类和还没有预先分好类,或者有监督的分类和无监督的分类。第一种情况相对简单,通常是在已知道了分类种数和已分类样本的情况下按某种原则对新的样本进行分类。第二种情况通常是在没有规定分类种数的情况下,根据所有样本的特征按某种规则将所有样本分成适当的种类。第二种情况是在没有监督的情况下进行的,又称聚类,难度往往比较大,有时很难给出合适的分类种数。例如,如何根据内容对当前缤纷万千的Web网页进行恰当的分类。 综合起来,对事物分类需要对事物的内容和特征进行分析,确定事物的关键属性和取值范围,提取或计算事物的特征值,计算事物特征间的差别或相似性,按一定规则将事物分类。事物的特征提取是根据具体事物的特点和应用,选择适当的事物特征和提取方法。例如,在基于内容的图像检索和图像识别中,图像的颜色、纹理、边缘、形状等参数都是图像的重要特征。本章主要介绍智能系统中常用的分类技术。,单参数的简单分类和多参数的模糊分类。 第一节 相似性测度 要对事物进行分类,首先要对事物间的差别或相似性进行判断。对事物分类的基本原则是同一类的事物尽量相似,不同类间事物的差距尽量大。因此,量度事物间的差距或计算他们的相似性是分类技术必不可少的工作。要完成这些工作,需要建立表示事物特征的数学模型和相应的相似度计算方法。 按图1所示的事物特征表示方法,设事物x,它有个特征,有N个样本。样本xi可以表示为xi={1i,a2i,┄,a i }。其中i=1,2,┄,N是样本编号,a1i,a2i,┄,a i是每个特征的取值,可以是字符型、逻辑型和数值型等,根据具体属性而定。当a1i,a2i,┄,a i的取值是时,事物x可以用维矢量表示,即xi=[a1i,a2i,┄,a i]T。 Eudidean距离: Manhanttan(City Block)距离: Chebychev距离: Camberra距离: Max-Min距离: Quadratic距离: Mahalanobis距离: Chi-square距离: 对于Minkowsky距离,当γ=1时,成为Manhattan(City-Block街区) 距离;当γ=2时,成为Euclidean距离;当γ→∞时,成为Chebychev(棋盘) 距离。 事物的相似性和差距是两个相反的概念,事物的差距越大其相似性越小,反之亦然。两个矢量x1、x2间的相似性可以由两个矢量间的距离转换求得,也可以直接计算求得。归一化(取值范围0~1)的相似性可以由两个矢量间的距离线性转换求得: 也可以按某种特殊要求由非线性转换求得,如: 当dij=d0时sij=0.5,相当于半功率点,可以作为相似的判断阈值。 在一些场合,常用两个矢量x1、x2间的相关系数量度两者的相似性,即: 相关性: 夹角余弦: Kendall' Rank相关性: 第二节 有监督的分类方法 分类通常是在已知分类类别数的情况下,对每个样本确定为某一类的过程。在这种情况下,已知分类的类别数,再制定适当的分类准则就很容易对新样本分类。例如,根据亮度阈值将灰度图像变换为黑白图像,将学生考试成绩的分值转换为“优、良、中、差”等。 有监督的分类,通常已知分类类别数和已分类的样本。已分类的样本可以用于分类训练,可以计算分类类别中心的情况。一种最简单的分类方法是将样本划归到最近类别中心的类,即最近距离法。但这种方法对于类别大小不同的情况不合理,因而有出现了近邻法和k-近邻法。近邻法是将样本划归到最近的已分类样本所属的类别中,k-近邻法是将样本划归到k个最近样本中多数样本所属的类别中。对于一些更复杂的情况,需要进行更为鲁棒的模湖分类,如BP神经网络分类器和SVM分类器。 4.2.1 K-近邻法 假设共有个样本,分为类。第()类有个样本,且。 在待分类样本的近邻区域内的k个已分类样本中,属于第类有个,且。则属于 第r类: 。 如图2,Arg意思是“使┅”。 4.2.2 利用BP神经网络 神经网络系统是由大量的、简单的神经元广泛连接而形成的复杂系统。一般认为,神经网络系统是一个高度复杂的非线性动力学系统,每个神经元的结构和功能十分简单,但大量

文档评论(0)

dashewan + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档