模式识别实验一分析.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
用身高体重数据进行性别分类实验一 一.题目要求: 1. 用 dataset1.txt 作为训练样本,用dataset2.txt 作为测试样本,采用身高和体重数据为特征,在正态分布假设下估计概率密度(只用训练样本),建立最小 错误率贝叶斯分类器,写出所用的密度估计方法和得到的决策规则,将该分 类器分别应用到训练集和测试集,考察训练错误率和测试错误率。将分类器 应用到dataset3 上,考察测试错误率的情况。(在分类器设计时可以尝试采用 不同先验概率,考查对决策和错误率的影响。) 2. 自行给出一个决策表,采用最小风险贝叶斯决策重复上面的实验。 二.数据文件: 1.dataset1.txt----- 328 个同学的身高、体重、性别数据(78 个女生、250 个男生) (datasetf1:女生、datasetm1:男生) 2.dataset2.txt -----124 个同学的数据(40 女、84 男) 3.dataset3.txt----- 90 个同学的数据(16 女,74 男) 三.题目分析: 要估计正态分布下的概率密度函数,假设身高随机变量为X,体重随机变量为Y,二维随机变量(X,Y)的联合概率密度函数是: px,y=12πσ1σ21-ρ2exp?{-121-ρ2[x-μ12σ12-2ρx-μ1y-μ2σ1σ2+(y-μ2)2σ22]} 其中-∞x,y+∞;-∞μ1,μ2+∞;σ1,σ20;-1≤ρ≤1. 并其μ1,μ2分别是X与Y的均值,σ12,σ22,分别是X与Y的方差,ρ是X与Y的相关系数。运用最大似然估计求取概率密度函数,设样本集中包含N个样本,即X={x1,x2,…xN},其中xk是列向量。根据教材中公式,令μ=(μ1,μ2)T,则μ=1Nk=1Nxk;协方差矩阵∑=σ12ρσ1σ2ρσ1σ2σ22,那么∑=1Nk=1N(xk-μ)(xk-μ)T。 采用最小错误率贝叶斯分类器,设一个身高体重二维向量为x,女生类为ω1,男生类为ω2,决策规则如下:x∈ω1,当Pω1x)P(ω2|x)ω2,当Pω2x)P(ω1|x)。概率P可以通过贝叶斯公式求解,采用和不同的先验概率,其结果也会有相应不同。然后逐一对样本数据进行检验,就可以分别得到各个训练集和测试集的错误率。 采用最小风险贝叶斯决策,首先在前面最小错误率贝叶斯分类器的基础上计算出Pω1x),然后自己设定一个主观的决策表,接着根据教材上的公式计算条件风险值,然后逐一比较风险值,找出条件风险最小的决策(也就是分为哪一类)。 四.MATLAB程序实现: ??最大似然估计求取概率密度函数 Step1:获取样本数据,存储为矩阵A; Step2:对矩阵的每一行求和,并除以样本总数N,得到平均值向量; Step3:应用公式 ∑=1Nk=1N(xk-μ)(xk-μ)T采用矩阵运算和循环控制语句求得协方差矩阵; Step4:通过协方差矩阵求得方差和相关系数,从而得到概率密度函数。 Matlab程序文件名:readdata.m 极大似然法求均值和方差(程序名:likelihood.m) readdata.m运行结果 五.实验结果分析和讨论: 在datasetf1.txt文件中,女生有78名,程序求解有其身高体重平均值分别是162.3205和51.4038.而协方差矩阵为∑=20.91018.30008.300026.7760。在datasetm1.txt中,男生有250人,平均身高体重分别是174.9960和67.2340,协方差矩阵为∑=28.314022.648922.648997.9862。所以女生的σ1=4.5728,σ2=5.1746,ρ=0.3508,男生的σ1=5.3211,σ2=9.8988,ρ=0.4300,所以女生和男生的概率密度函数分别是: p(x,y)=1139.2270exp?{-11.7539[x-162.3205220.9101-x-162.3205y-51.403833.7263+(y-51.4038)226.7760]} p(x,y)=1289.7922exp?{-11.6302[x-174.9960228.3140-x-174.9960y-67.234061.2470+(y-67.2340)297.9862]} 假设男女类别的先验概率用实际样本数据中男女的比例来近似,在datasetf1.txt文件中,运用最小错误率贝叶斯分类器,总共有12个女生被错误判断为男生,在datasetm1.txt文件中,有11个男生被错误判断为女生,总的错误为7%。(如下图) 而dataset2.txt文件中, 4个女生判错,4个男生判错,总错误率3.4%,而在dataset3.txt文件中,2个女生判错,2个男生判错,2个女生判错,总错误率4

文档评论(0)

钱缘 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档