模式识别实验一分析.docxVIP

下载本文档

6
0
约2.12千字
约 6页
2016-11-15 发布于湖北
举报
版权申诉

模式识别实验一分析.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

用身高体重数据进行性别分类实验一一.题目要求： 1．用 dataset1.txt 作为训练样本，用dataset2.txt 作为测试样本，采用身高和体重数据为特征，在正态分布假设下估计概率密度（只用训练样本），建立最小错误率贝叶斯分类器，写出所用的密度估计方法和得到的决策规则，将该分类器分别应用到训练集和测试集，考察训练错误率和测试错误率。将分类器应用到dataset3 上，考察测试错误率的情况。（在分类器设计时可以尝试采用不同先验概率，考查对决策和错误率的影响。） 2．自行给出一个决策表，采用最小风险贝叶斯决策重复上面的实验。二.数据文件： 1.dataset1.txt----- 328 个同学的身高、体重、性别数据（78 个女生、250 个男生） (datasetf1:女生、datasetm1:男生) 2.dataset2.txt -----124 个同学的数据（40 女、84 男） 3.dataset3.txt----- 90 个同学的数据（16 女，74 男）三.题目分析：要估计正态分布下的概率密度函数，假设身高随机变量为X，体重随机变量为Y，二维随机变量（X,Y）的联合概率密度函数是： px,y=12πσ1σ21-ρ2exp?{-121-ρ2[x-μ12σ12-2ρx-μ1y-μ2σ1σ2+(y-μ2)2σ22]} 其中-∞x,y+∞;-∞μ1,μ2+∞;σ1,σ20;-1≤ρ≤1. 并其μ1,μ2分别是X与Y的均值，σ12，σ22，分别是X与Y的方差，ρ是X与Y的相关系数。运用最大似然估计求取概率密度函数，设样本集中包含N个样本，即X={x1,x2,…xN},其中xk是列向量。根据教材中公式，令μ=（μ1,μ2）T，则μ=1Nk=1Nxk;协方差矩阵∑=σ12ρσ1σ2ρσ1σ2σ22，那么∑=1Nk=1N（xk-μ）（xk-μ）T。采用最小错误率贝叶斯分类器，设一个身高体重二维向量为x，女生类为ω1，男生类为ω2，决策规则如下：x∈ω1,当Pω1x）P(ω2|x)ω2,当Pω2x）P(ω1|x)。概率P可以通过贝叶斯公式求解，采用和不同的先验概率，其结果也会有相应不同。然后逐一对样本数据进行检验，就可以分别得到各个训练集和测试集的错误率。采用最小风险贝叶斯决策，首先在前面最小错误率贝叶斯分类器的基础上计算出Pω1x），然后自己设定一个主观的决策表，接着根据教材上的公式计算条件风险值，然后逐一比较风险值，找出条件风险最小的决策（也就是分为哪一类）。四.MATLAB程序实现： ??最大似然估计求取概率密度函数 Step1：获取样本数据，存储为矩阵A； Step2：对矩阵的每一行求和，并除以样本总数N，得到平均值向量； Step3：应用公式 ∑=1Nk=1N（xk-μ）（xk-μ）T采用矩阵运算和循环控制语句求得协方差矩阵； Step4：通过协方差矩阵求得方差和相关系数，从而得到概率密度函数。 Matlab程序文件名：readdata.m 极大似然法求均值和方差（程序名：likelihood.m） readdata.m运行结果五.实验结果分析和讨论：在datasetf1.txt文件中，女生有78名，程序求解有其身高体重平均值分别是162.3205和51.4038.而协方差矩阵为∑=20.91018.30008.300026.7760。在datasetm1.txt中，男生有250人，平均身高体重分别是174.9960和67.2340，协方差矩阵为∑=28.314022.648922.648997.9862。所以女生的σ1=4.5728，σ2=5.1746，ρ=0.3508，男生的σ1=5.3211，σ2=9.8988，ρ=0.4300，所以女生和男生的概率密度函数分别是： p(x,y)=1139.2270exp?{-11.7539[x-162.3205220.9101-x-162.3205y-51.403833.7263+(y-51.4038)226.7760]} p(x,y)=1289.7922exp?{-11.6302[x-174.9960228.3140-x-174.9960y-67.234061.2470+(y-67.2340)297.9862]} 假设男女类别的先验概率用实际样本数据中男女的比例来近似，在datasetf1.txt文件中，运用最小错误率贝叶斯分类器，总共有12个女生被错误判断为男生，在datasetm1.txt文件中，有11个男生被错误判断为女生，总的错误为7%。（如下图）而dataset2.txt文件中， 4个女生判错，4个男生判错，总错误率3.4%，而在dataset3.txt文件中，2个女生判错，2个男生判错，2个女生判错，总错误率4