- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
模式识别——用高和或体重数据进行性别分类
用身高和/或体重数据进行性别分类
1、【实验目的】
(1)掌握最小错误率Bayes分类器的决策规则
(2)掌握Parzen窗法
(3)掌握Fisher线性判别方法
(4)熟练运用matlab的相关知识。
2、【实验原理】
(1)、最小错误率Bayes分类器的决策规则
如果在特征空间中观察到某一个(随机)向量x = ( x1 , x2 ,…, xd )T,已知类别状态的先验概率为:和类别的条件概率密度为,根据Bayes公式得到状态的后验概率 有:
基本决策规则:如果,则,将 x 归属后验概率最大的类别 。
(2)、掌握Parzen窗法
对于被估计点X:
其估计概率密度的基本公式,设区域 RN 是以 hN 为棱长的 d 维超立方体,则立方体的体积为;
选择一个窗函数,落入该立方体的样本数为,点 x 的概率密度:
其中核函数:,满足的条件:;。
(3)、Fisher线性判别方法
Fisher线性判别分析的基本思想:通过寻找一个投影方向(线性变换,线性组合),将高维问题降低到一维问题来解决,并且要求变换后的一维数据具有如下性质:同类样本尽可能聚集在一起,不同类的样本尽可能地远。
Fisher线性判别分析,就是通过给定的训练数据,确定投影方向W和阈值y0,即确定线性判别函数,然后根据这个线性判别函数,对测试数据进行测试,得到测试数据的类别。
线性判别函数的一般形式可表示成 ,其中
根据Fisher选择投影方向W的原则,即使原样本向量在该方向上的投影能兼顾类间分布尽可能分开,类内样本投影尽可能密集的要求,用以评价投影方向W的函数为:
上面的公式是使用Fisher准则求最佳法线向量的解,该式比较重要。另外,该式这种形式的运算,我们称为线性变换,其中式一个向量,是的逆矩阵,如是d维,和都是d×d维,得到的也是一个d维的向量。 向量就是使Fisher准则函数达极大值的解,也就是按Fisher准则将d维X空间投影到一维Y空间的最佳投影方向,该向量的各分量值是对原d维特征向量求加权和的权值。
以上讨论了线性判别函数加权向量W的确定方法,并讨论了使Fisher准则函数极大的d维向量的计算方法,但是判别函数中的另一项尚未确定,一般可采用以下几种方法确定如
或者 或当与已知时可用
当W0确定之后,则可按以下规则分类:
3、【实验内容及要求】
(1)、实验对象
Datasetf1.TXT 女生的身高、体重数据
Datasetm1.TXT男生的身高、体重数据
----- 训练样本集
Dataset1.txt 328个同学的身高、体重、性别数据
Dataset2.txt 124个同学的身高、体重、性别数据
----- 测试样本集
(2)基本要求:
(1) 用Datasetf1.TXT和Datasetm1.TXT的数据作为训练样本集,建立Bayes分类器,用测试样本数据对该分类器进行测试。调整特征、分类器等方面的一些因素,考察它们对分类器性能的影响,从而加深对所学内容的理解和感性认识。(试验直接设计线性分类器的方法,与基于概率密度估计的贝叶斯分离器进行比较)
(2) 试验非参数估计,体会与参数估计在适用情况、估计结果方面的异同。
4、【实验结果与分析】
(1)、Bayes分类器的实验结果与分析
A、对于Dataset1.txt 328个同学的身高、体重、性别数据的测试样本集:
A1、当先验概率为:男0.5,女0.5时:
身高分类错误个数: 15 身高分类错误率为: 12.10%
体重分类错误个数: 15 体重分类错误率为: 12.10%
【实验结果:】
A2、当先验概率为:男0.75,女0.25时:
身高分类错误个数: 19 身高分类错误率为: 15.32%
体重分类错误个数: 14 体重分类错误率为: 11.29%
B、对于Dataset2.txt 124个同学的身高、体重、性别数据的测试样本集:
B1、当先验概率为:男0.5,女0.5时:
身高分类错误个数: 16 身高分类错误率为: 12.90%
体重分类错误个数: 21 体重分类错误率为: 16.94%
【实验结果:】
B2、当先验概率为:男0.75,女0.25时:
身高分类错误个数: 31 身高分类错误率为: 25.00%
体重分类错误个数: 35 体重分类错误率为: 28.23%
【结果分析:】
Dataset1.txt样本数据集中,男女先验概率为(0.71vs0.29);Dataset2.txt样本数据集中,男女先验概率为(0.66vs0.34)。
对比实验结果,可以发现身高的分类错误率都小于体重的分
文档评论(0)