用身高和体重数据进行性别分类实验报告.docVIP

下载本文档

211
0
约1.02万字
约 18页
2017-09-04 发布于安徽
举报
版权申诉

用身高和体重数据进行性别分类实验报告.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

用身高和体重数据进行性别分类的实验报告（二）基本要求 1、试验非参数估计，体会与参数估计在适用情况、估计结果方面的异同。试验直接设计线性分类器的方法，与基于概率密度估计的贝叶斯分器进行比较。体会留一法估计错误率的方法和结果。改用Parzen窗法或者kn近邻法估计概率密度函数，得出贝叶斯分器，对测试样本进行测试，比较与参数估计基础上得到的分类器和分类性能的差别。同时采用身高和体重数据作为特征，用Fisher线性判别方法求分类器，将该分类器应用到训练和测试样本，考察训练和测试错误情况。将训练样本和求得的决策边界画到图上，同时把以往用Bayes方法求得的分类器也画到图上，比较结果的异同。选择上述或以前实验的任意一种方法，用留一法在训练集上估计错误率，与在测试集上得到的错误率进行比较。，窗宽为（h是调节的参量，N是样本个数），（d表示维度）。因为区域是一维的，所以体积为。Parzen公式为。故女生的条件概率密度为男生的条件概率密度为根据贝叶斯决策规则知如果，否则，。流程图如下： 2、要求是同时采用身高和体重数据作为特征，用Fisher线性判别方法求分类器，将该分类器应用到训练和测试样本，考察训练和测试错误情况。将训练样本和求得的决策边界画到图上，同时把以往用Bayes方法求得的分类器也画到图上，比较结果的异同。，然后求各个样本的来内离散度矩阵，及，再求出样本的总类内离散度，及，根据公式求出把二维X空间投影到一维Y空间的最好的投影方向。再求出一维Y空间中各类样本均值，其中,本次实验的分界阈值我们用如下方法得到：,最后，将测试样本中的值代入，求出y，并将其与y0来进行比较来分类。根据课本对Fisher线性判别法的介绍，得到的算法流程图如下： 3、选择上述或以前实验的任意一种方法，用留一法在训练集上估计错误率，与在测试集上得到的错误率进行比较。四、实验结果及分析总结 1、得到结果如下表以身高作为特征 h=4 估计方法女生先验概率男生先验概率男生错误个数女生错误个数总错误男生错误率女生错误率总错误率 Parzen窗法 0.25 0.75 22 8 30 16% 8.8% 10% 0.5 0.5 34 4 38 13.6% 8% 12.67% 0.75 0.25 80 2 82 32% 4% 27.33% 最大似然Bayes 0.25 0.75 20 6.667% 0.5 0.5 27 9% 0.75 0.25 60 20% 以身高与体重作为特征 h=7 估计方法女生先验概率男生先验概率男生错误个数女生错误个数总错误男生错误率女生错误率总错误率 Parzen窗法 0.25 0.75 7 22 29 14% 8.8% 9.67% 0.5 0.5 38 2 40 15.2% 4% 13.33% 0.75 0.25 2 46 48 18.4% 4% 16% 最大似然Bayes 0.25 0.75 8 6 14 3.2% 12% 4.67% 0.5 0.5 29 3 32 11.6% 6% 10.67% 0.75 0.2 59 1 60 23.6% 2% 20% 分析：通过比较可知，在用最大似然估计这种参数估计方法和Parzen这种非参数估计方法来进行分类时，最大似然估计判别的错误率低。 2、得到结果如下（1）、用Fisher线性判别方法求分类器，将分类器应用到训练和测试样本测试样本 27 2 29 10.8% 4% 9.67% 训练样本 8 4 12 16% 8% 12% 分析：用训练样本得到的分类器测试测试样本时错误率低，测试结果较好，但测试训练样本时，其错误率较高，测试结果不好。（2）、将训练样本和求得的决策边界画到图上测试样本 81 3 28% 训练样本 8 4 12% 分析：用留一法在训练样本机上估计错误率时，错误率小于它在测试样本集上得到的错误率，且留一法在测试样本集上女生错误个数远低于男生错误个数。五、体会这次实验，我们组用了接近三天的时间，首先，我们对题目要求进行认真分析，在确保对题目完全理解的基础上，开始一步一步分析，求解。对每个小题，及其每一问，我们都经过查书，查资料，编代码这几个步骤，仔细分析每一步算法，得出流程图。经过第一次作业的编程，本次编程我们都觉得轻松了很多，但还会出现一些细节上的错误，不过，这些在我们经过不断的调试之后都会被发现并解决。总体而言，本次试验，让我们对Parzen窗法求类条件概率密度，以及Fisher线性判