用身高和体重数据进行性别分类的实验报告解析.docx

用身高和体重数据进行性别分类的实验报告解析.docx

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
用身高和体重数据进行性别分类的实验报告 一:基本要求 1、利用K-L变换进行特征提取。 2、在正态分布假设下估计概率密度,建立最小错误率Bayes分类器。 3、试验直接设计线性分类器的方法,与基于概率密度估计的贝叶斯分类器进行比较。 二、实验数据 训练样本:FAMALE.TXT(50个女同学的身高与体重数据) MALE.TXT(50个男同学的身高与体重数据) 测试样本:Text1.TXT(35个同学的身高与体重数据,其中20个男同学,15个女同学) Text2.TXT(300个同学的身高与体重数据,其中250个男同学,50个女同学) 具体做法 1、不考虑类别信息对整个样本集进行K-L变换(即PCA),并将计算出的新特征方向表示在二维平面上,考察投影到特征值最大的方向后男女样本的分布情况并用该主成分进行分类。 2、利用类平均向量提取判别信息,选取最好的投影方向,考察投影后样本的分布情况并用该投影方向进行分类。 3、采用身高和体重数据作为特征,在正态分布假设下估计概率密度,建立最小错误率Bayes分类器,写出得到的决策规则,将该分类器应用到训练/测试样本,考察训练/测试错误情况。在分类器设计时可以考察采用不同先验概率(如0.5 vs. 0.5, 0.75 vs. 0.25, 0.9 vs. 0.1等)进行实验,考察对决策和错误率的影响。 4、用Fisher线性判别方法求分类器,将该分类器应用到训练和测试样本,考察训练和测试错误情况。将训练样本和求得的决策边界画到图上,同时把以往用Bayes方法求得的分类器也画到图上,比较结果的异同。 原理简述及程序框图 1.不考虑类别信息对整个样本集进行K-L变换 (1)读入female.txt 和male.txt 两组数据,组成一个样本集。计算样本均值向量和协方差 (2)计算协方差阵特征值和特征向量 (3)选取特征值最大的特征向量作为投影方向 (4)选取阈值进行判断 2.利用类平均向量提取判别信息来进行K-L变换 (1)读入female.txt 和male.txt 两组数据,组成一个样本集。分别计算样本均值向量 和协方差 ,及总均值向量 (2)计算类间离散度矩阵Sb ( )与类内离散度矩阵Sw( ) (3)用 比较分类性能,选取最佳投影方向 (4)选取阈值进行判断 3.正态分布的监督参数估计: 对于多元正态分布,其最大似然估计的结果为: 最小错误率Bayes分类器 判别函数为 其中 , 具体算法步骤如下: 第一步将训练样本集数据转为矩阵FA,MA。 第二步分别对FA,MA求取协方差,平均值并输入先验概率 第三步将第二步所得数值代入判别函数表达式得。 第四步将待测样本集数据转为矩阵T,将T中数值依次代 ,若,则判断其为第一类,反之,第二类。 流程图如下: Fisher线性判别方法求分类器 首先求各类样本均值向量,及,然后求各个样本的类内离散度矩阵,及,再求出样本的总类内离散度,及,根据公式求出把二维X空间投影到一维Y空间的最好的投影方向。再求出一维Y空间中各类样本均值,其中,本次实验的分界阈值我们用如下方法得到:,最后,将测试样本中的值代入,求出y,并将其与y0来进行比较来分类。 流程图如下: 求各类样本均值向量 求各类样本均值向量 求类内离散度矩阵 求类内离散度矩阵 用公式求最好的 用公式求最好的变换向量W* 二维空间向一维 二维空间向一维y空间投影 一维空间样本均值 一维空间样本均值 求取阈值 求取阈值y0 决策判断 决策判断 计算各类样本的错误率 计算各类样本的错误率 实验结果及分析总结 不考虑类别信息对整个样本集进行K-L变换 实验中不考虑类别信息,用FAMALE.TXT和MALE.TXT的数据作为本次实验使用的样本集,建立基于K-L变换的分类器,记录错误率。 特征向量为(0.6269,0.7719) 男判为女:10 错误率10% 女判为男:4 错误率4% 2.利用类均值向量的特征提取实验结果 实验中考虑类别信息,用FAMALE.TXT和MALE.TXT的数据作为本次实验使用的样本集,设定男女先验概率分别为0.75和0.25,建立基于K-L变换的分类器,记录分类错误率。 特征向量为(0.6153,0.7883) 男判为女:10 错误率10% 女判为男:3 错误率3% 分析:不考虑类别信息的基于K-L变换的特征提取再分类与Fisher分类器效果差不多(Fisher线性判别方法 男判为女8个 女判为男4个),不过在本次实验中,Fisher判别

您可能关注的文档

文档评论(0)

119220 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档