用身高和体重数据进行性别分类的实验报告分解.docxVIP

下载本文档

88
0
约2.72千字
约 12页
2018-05-04 发布于重庆
举报
版权申诉

用身高和体重数据进行性别分类的实验报告分解.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

用身高和体重数据进行性别分类的实验报告分解

用身高和体重数据进行性别分类的实验报告一：基本要求1、利用K-L变换进行特征提取。2、在正态分布假设下估计概率密度，建立最小错误率Bayes分类器。3、试验直接设计线性分类器的方法，与基于概率密度估计的贝叶斯分类器进行比较。二、实验数据训练样本：FAMALE.TXT（50个女同学的身高与体重数据） MALE.TXT（50个男同学的身高与体重数据）测试样本：Text1.TXT（35个同学的身高与体重数据，其中20个男同学，15个女同学） Text2.TXT（300个同学的身高与体重数据，其中250个男同学，50个女同学）具体做法1、不考虑类别信息对整个样本集进行K-L变换（即PCA），并将计算出的新特征方向表示在二维平面上，考察投影到特征值最大的方向后男女样本的分布情况并用该主成分进行分类。2、利用类平均向量提取判别信息，选取最好的投影方向，考察投影后样本的分布情况并用该投影方向进行分类。3、采用身高和体重数据作为特征，在正态分布假设下估计概率密度，建立最小错误率Bayes分类器，写出得到的决策规则，将该分类器应用到训练/测试样本，考察训练/测试错误情况。在分类器设计时可以考察采用不同先验概率（如0.5 vs. 0.5, 0.75 vs. 0.25, 0.9 vs. 0.1等）进行实验，考察对决策和错误率的影响。4、用Fisher线性判别方法求分类器，将该分类器应用到训练和测试样本，考察训练和测试错误情况。将训练样本和求得的决策边界画到图上，同时把以往用Bayes方法求得的分类器也画到图上，比较结果的异同。原理简述及程序框图1.不考虑类别信息对整个样本集进行K-L变换（1）读入female.txt 和male.txt 两组数据，组成一个样本集。计算样本均值向量和协方差（2）计算协方差阵特征值和特征向量（3）选取特征值最大的特征向量作为投影方向（4）选取阈值进行判断2.利用类平均向量提取判别信息来进行K-L变换（1）读入female.txt 和male.txt 两组数据，组成一个样本集。分别计算样本均值向量和协方差，及总均值向量（2）计算类间离散度矩阵Sb （）与类内离散度矩阵Sw（）（3）用比较分类性能，选取最佳投影方向（4）选取阈值进行判断3.正态分布的监督参数估计：对于多元正态分布，其最大似然估计的结果为：最小错误率Bayes分类器判别函数为其中，具体算法步骤如下：第一步将训练样本集数据转为矩阵FA，MA。第二步分别对FA，MA求取协方差，平均值并输入先验概率第三步将第二步所得数值代入判别函数表达式得。第四步将待测样本集数据转为矩阵T，将T中数值依次代，若，则判断其为第一类，反之，第二类。流程图如下：Fisher线性判别方法求分类器首先求各类样本均值向量，及，然后求各个样本的类内离散度矩阵，及，再求出样本的总类内离散度，及，根据公式求出把二维X空间投影到一维Y空间的最好的投影方向。再求出一维Y空间中各类样本均值，其中,本次实验的分界阈值我们用如下方法得到：,最后，将测试样本中的值代入，求出y，并将其与y0来进行比较来分类。流程图如下：求各类样本均值向量求类内离散度矩阵用公式求最好的变换向量W*二维空间向一维y空间投影一维空间样本均值求取阈值y0决策判断计算各类样本的错误率实验结果及分析总结不考虑类别信息对整个样本集进行K-L变换实验中不考虑类别信息，用FAMALE.TXT和MALE.TXT的数据作为本次实验使用的样本集，建立基于K-L变换的分类器，记录错误率。特征向量为（0.6269，0.7719）男判为女：10 错误率10%女判为男：4 错误率4%2.利用类均值向量的特征提取实验结果实验中考虑类别信息，用FAMALE.TXT和MALE.TXT的数据作为本次实验使用的样本集，设定男女先验概率分别为0.75和0.25，建立基于K-L变换的分类器，记录分类错误率。特征向量为（0.6153，0.7883）男判为女：10 错误率10%女判为男：3 错误率3%分析：不考虑类别信息的基于K-L变换的特征提取再分类与Fisher分类器效果差不多（Fisher线性判别方法男判为女8个女判为男4个），不过在本次实验中，Fisher判别更胜一筹。考虑类别信息时，分类效果会受到先验概率的影响。最小错误率贝叶斯决策根据最大似然估计出的男生身高体重均值为173.9200 65.5020 协方差矩阵为女生身高体重均值为 162.8400 52.5960 协方差矩阵为先验概率P（1）先验概率P（2）样本text1判错个数样本text1错误率样本text2判错个数样本text2错误率0.50.512.86%3210.67%0.250.7538.57%144.67%0.10.9411.43%