- 1、本文档共17页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1、实验目的
1. 了解多元正态分布
2. 对多元正态分布利用矩估计法进行参数估计,了解参数估计的过程
3. 掌握利用贝叶斯最大后验概率准则对三类数据进行两两分类的方法
2、实验原理
Iris数据集共有三组,分别为setosa,versicolou和virginica,每一组都是一个单独的类别,此实验中,默认setosa为第一类,versicolou为第二类,virginica为第三类,每组50个数据,每个数据都是一个四维向量,且服从四维正态分布。
即类别空间为:Ω=
数据向量为:x=
2.1 多元正态分布
随机向量X=(X
p
其中x=(x1,x2,…,xp)T为常量,μ=(μ1,μ2
2.2 参数估计
由于三组数据均服从四维正态分布,首先要确定数据的具体分布,因此在分类之前,利用一部分实验数据进行训练,分别得到三组数据的四维正态分布参数。即μ1,B1,(μ2,
实验中,参数估计采用矩估计法,即利用样本(训练数据)的均值向量和协方差矩阵作为总体的均值向量和协方差矩阵的估计值,进而得到每组数据的分布密度函数。
以第一组数据为例:setosa中的数据x=(x1,x2,x3,x4
μ
B
从第一类数据中选取部分数据按照上式进行训练,得到第一类数据的正态分布参数,因而可求得其密度函数。
三类数据都按照上公式,选取部分实验数据得出正态分布的均值向量和协方差矩阵。进而得到自己的概率密度公式
p
2.3 贝叶斯最大后验概率准则
利用贝叶斯准则对数据进行两两分类时,以贝叶斯公式为基础,利用测量到的对象特征配合必要的先验信息,求出两种可能分类情况的后验概率,选取后验概率大的,作为分类的结果。即最大后验概率准则,也称最小错误概率准则。
以第一类和第二类为例,对这两组数据进行分类。两组数据经过参数估计之后,分别得到条件概率密度p(x|ω1),p(x|
p
p
贝叶斯最大后验概率准则进行分类时,根据输入的列向量x=(x1,x
如果 pω1x pω2
p
即:
l
因此根据最大后验概率准则判断x所属的类别,转变为比较似然比l12和阈值θ21
实验中首先求得两类数据的条件概率密度p(x|ω1)和p(x|ω2),关于先验概率pω1和
p
故而,判别式(8)简化为:
p
因此,根据上式即可对输入向量x进行分类。
如果 p(x|ω1)p(x|ω2)
如果 p(x|ω2)p(x|ω1
3、实验过程
实验中,根据实验原理,首先对两组数据分别进行训练,得到其四维正态分布的密度函数,再根据最大后验概率准则进行分类。
3.1 参数估计
已知三组数据均为X~N4
p
其中,μ为均值向量,B为协方差矩阵,x和μ均为四维列向量。根据式(2)和(3)对每组数据的均值向量和协方差矩阵进行估计。
参数估计即选取部分数据进行训练,数据可以采用随机选取的方式,也可以从开始固定的选取若干数据进行训练。同时,参与训练的数据多少也会影响最后的分类结果。实验中尝试了不同的选取方法,结果如下:
(1)从前向后依次选取10个数据进行训练:
(2)从前向后依次选取15个数据进行训练:
(3)从前向后依次选取20个数据进行训练:
(4)从前向后依次选取25个数据进行训练:
(5)随机选取15个数据进行训练:
(6)随机选取20个数据进行训练:
3.2 贝叶斯分类
学习分类时,本实验中,将待分类的两类数据合并为一个矩阵test,然后每次随机的从test矩阵中抽取一维向量进行分类判别。因此先验概率满足
p
所以,实验中只需要根据估计的参数得出两类的概率密度函数
p
p
对于输入的列向量x带入上面两个公式中进行计算,则x归入概率大的一类。
下面以第一类和第二类分类为例进行说明:
实验中,
m:表示参与训练的数据个数,进行分类学习时
t:表示每次学习的次数,实验置为10000,即每次随机选取10000次x进行分类
test矩阵:将待分类的两组数据合并为一个矩阵test,之后随机的从test矩阵中选择输入向量,保证先验概率相等
W向量:表示随机选择的输入向量的位置,若W(i)51则说明此时的输入向量来自第一类,W(i)50则说明此时的输入向量来自第二类
set向量:输入的x判别属于第一类,则将set的相应位置1,否则置0
ver向量:输入的x判别属于第二类,则将ver的相应位置1,否则置0
最后比较W向量和set向量、ver向量,若选择于第一类(W(i)51)也判别为第一类(set(i)=1),则说明判别正确。第二类同理。
部分框图如下所示:
相应部分代码如下:
最后,统计set向量和ver向量中不为0的元素个数即在10000次学习分类时错误的次数。
进行分类实验时,考虑到两方面的影响:
(1)参数估计时训练样本的选取方式不同,分为固定选取样本和随机选取样本(2)参数估计时选取
您可能关注的文档
最近下载
- 37、 4-6岁 《忙碌的立交桥》.pptx
- 2024年医师定考业务水平口腔类别题库及答案 .pdf VIP
- 荀子劝学课件1.ppt VIP
- 4.1 水循环 教案 2023-2024学年湘教版(2019)高中地理必修一.docx VIP
- 北师大版四年级数学上册乘法分配律练习题.pdf VIP
- 储能电站能源管理合同范本.pdf VIP
- 新人教版三年级上册数学第八单元《分数的初步认识复习课》名师教学课件.pptx
- 【产品手册】路博润Lubrizol_公司宣传册Brochure_Corporate_Overview2.docx
- 19028 安全生产治本攻坚三年行动方案(工程施工项目) (1).docx VIP
- 第十七章 学校组织管理PPT.ppt
文档评论(0)