模式识别——用高和或体重数据进行性别分类.docVIP

下载本文档

8
0
约7.12千字
约 12页
2016-11-06 发布于贵州
举报
版权申诉

模式识别——用高和或体重数据进行性别分类.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

模式识别——用高和或体重数据进行性别分类

用身高和/或体重数据进行性别分类 1、【实验目的】（1）掌握最小错误率Bayes分类器的决策规则（2）掌握Parzen窗法（3）掌握Fisher线性判别方法（4）熟练运用matlab的相关知识。 2、【实验原理】（1）、最小错误率Bayes分类器的决策规则如果在特征空间中观察到某一个（随机）向量x = ( x1 , x2 ,…, xd )T，已知类别状态的先验概率为：和类别的条件概率密度为，根据Bayes公式得到状态的后验概率有：基本决策规则：如果，则，将 x 归属后验概率最大的类别。（2）、掌握Parzen窗法对于被估计点X：其估计概率密度的基本公式，设区域 RN 是以 hN 为棱长的 d 维超立方体，则立方体的体积为；选择一个窗函数，落入该立方体的样本数为，点 x 的概率密度: 其中核函数：，满足的条件：；。（3）、Fisher线性判别方法 Fisher线性判别分析的基本思想：通过寻找一个投影方向（线性变换，线性组合），将高维问题降低到一维问题来解决，并且要求变换后的一维数据具有如下性质：同类样本尽可能聚集在一起，不同类的样本尽可能地远。 Fisher线性判别分析，就是通过给定的训练数据，确定投影方向W和阈值y0，即确定线性判别函数，然后根据这个线性判别函数，对测试数据进行测试，得到测试数据的类别。线性判别函数的一般形式可表示成　　，其中根据Fisher选择投影方向W的原则，即使原样本向量在该方向上的投影能兼顾类间分布尽可能分开，类内样本投影尽可能密集的要求，用以评价投影方向W的函数为：　　　　上面的公式是使用Fisher准则求最佳法线向量的解，该式比较重要。另外，该式这种形式的运算，我们称为线性变换，其中式一个向量，是的逆矩阵，如是d维，和都是d×d维，得到的也是一个d维的向量。　　向量就是使Fisher准则函数达极大值的解，也就是按Fisher准则将d维X空间投影到一维Y空间的最佳投影方向，该向量的各分量值是对原d维特征向量求加权和的权值。以上讨论了线性判别函数加权向量W的确定方法，并讨论了使Fisher准则函数极大的d维向量的计算方法，但是判别函数中的另一项尚未确定，一般可采用以下几种方法确定如　　　或者　　　　　或当与已知时可用　当W0确定之后，则可按以下规则分类：　　　 3、【实验内容及要求】（1）、实验对象 Datasetf1.TXT 女生的身高、体重数据 Datasetm1.TXT男生的身高、体重数据 ----- 训练样本集 Dataset1.txt 328个同学的身高、体重、性别数据 Dataset2.txt 124个同学的身高、体重、性别数据 ----- 测试样本集（2）基本要求： (1) 用Datasetf1.TXT和Datasetm1.TXT的数据作为训练样本集，建立Bayes分类器，用测试样本数据对该分类器进行测试。调整特征、分类器等方面的一些因素，考察它们对分类器性能的影响，从而加深对所学内容的理解和感性认识。(试验直接设计线性分类器的方法，与基于概率密度估计的贝叶斯分离器进行比较) (2) 试验非参数估计，体会与参数估计在适用情况、估计结果方面的异同。 4、【实验结果与分析】（1）、Bayes分类器的实验结果与分析 A、对于Dataset1.txt 328个同学的身高、体重、性别数据的测试样本集： A1、当先验概率为：男0.5，女0.5时：身高分类错误个数： 15 身高分类错误率为： 12.10% 体重分类错误个数： 15 体重分类错误率为： 12.10% 【实验结果：】 A2、当先验概率为：男0.75，女0.25时：身高分类错误个数： 19 身高分类错误率为： 15.32% 体重分类错误个数： 14 体重分类错误率为： 11.29% B、对于Dataset2.txt 124个同学的身高、体重、性别数据的测试样本集： B1、当先验概率为：男0.5，女0.5时：身高分类错误个数： 16 身高分类错误率为： 12.90% 体重分类错误个数： 21 体重分类错误率为： 16.94% 【实验结果：】 B2、当先验概率为：男0.75，女0.25时：身高分类错误个数： 31 身高分类错误率为： 25.00% 体重分类错误个数： 35 体重分类错误率为： 28.23% 【结果分析：】 Dataset1.txt样本数据集中，男女先验概率为（0.71vs0.29）；Dataset2.txt样本数据集中，男女先验概率为（0.66vs0.34）。对比实验结果，可以发现身高的分类错误率都小于体重的分