- 1、本文档共46页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第8章 ;8.1 基本概念
8.2 类别可分性测度
8.3 基于可分性测度的特征提取方法
;8.1 基本概念;2、特征的类别;如汉字识别的成功、指纹的识别就实现离不开结构特征的选择。结构特征的表达是先将观察对象分割成若干个基本构成要素,再确定基本要素间的相互连接关系。
结构信息对对象的尺寸往往不太敏感,如汉字识别时,识别系统对汉字大小不敏感,只对笔划结构信息敏感。
3、数字特征
一般来说,数字特征是为了表征观察对象而设立的特征,如给每个学生设立一个学号,作为标志每个???生的特征。;(1) 具有很大的识别信息量。即应具有很好的可分性。
(2) 具有可靠性。模棱两可、似是而非、时是时非等不易判别
的特征应丢掉。
(3) 尽可能强的独立性。重复的、相关性强的特征只选一个。
(4) 数量尽量少,同时损失的信息尽量小。;(c)是具有分类能力的特征,故选(c),
扔掉(a) 、 (b) 。;[法2]:① 特征抽取:测量
物体向两个坐标轴的投影
值,则A、B各有2个值域区
间。可以看出,两个物体的
投影有重叠,直接使用投影
值无法将两者区分开。;3、特征提取和选择的作用;Matlab提取任意形状点坐标;;;;;;;;多类模式向量间的距离;;;2.散度; 对不同的X,似然函数不同,对数似然比体现的可分性
不同,通常采用平均可分性信息——对数似然比的期望值 。 ; 散度表示了区分ωi类和ωj 类的总的平均信息。;(3)错误率分析中,两类概率密度曲线交叠越少,错误率越小。 ; 6.2.3、基于熵函数的可分离性判据
除了采用前面的类概率密度函数来刻画类别的可分性外,还可以由特征的后验概率分布来衡量它对分类的有效性。
(1)后验概率相等:无法确定样本所属类别;
(2)后验概率集中:存在一组特征使得P(ωi|x)=1,且P(ωj|x)=0,ji,则此时样本x可以肯定地规划为ωi类,而错误概率为零。
为了衡量后验概率分布的集中程度,需要规定一个定量指标。在信息论中用熵来作为不确定性的度量,熵越大则不确定性就越大,因此可以借助熵的概念来描述各类的可分性。
对于c类问题,设给定样本x的各类后验概率为P(ωi|x)=Pi。熵的定义: ;;;;;;;;;;;;;;;;主成分分析实例:Landsat卫星上TM 影像;;;;;结束
文档评论(0)