贝叶斯最大后验概率准则对iris数据的分类课案.docx

下载文档 降价啦

7
0
约4.87千字
约 17页
2017-05-28 发布于湖北
举报
版权申诉
保障服务

贝叶斯最大后验概率准则对iris数据的分类课案.docx

1、本文档共17页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

贝叶斯最大后验概率准则对iris数据的分类课案

1、实验目的1. 了解多元正态分布2. 对多元正态分布利用矩估计法进行参数估计，了解参数估计的过程3. 掌握利用贝叶斯最大后验概率准则对三类数据进行两两分类的方法2、实验原理Iris数据集共有三组，分别为setosa，versicolou和virginica，每一组都是一个单独的类别，此实验中，默认setosa为第一类，versicolou为第二类，virginica为第三类，每组50个数据，每个数据都是一个四维向量，且服从四维正态分布。即类别空间为：数据向量为：2.1 多元正态分布随机向量X=的分布密度函数有如下形式：其中为常量，为随机向量的均值向量，B为p*p的协方差矩阵，则称X服从p元正态分布，记为。因此，对于多元正态分布而言，只需要确定均值向量和协方差矩阵即可确定概率密度函数。2.2 参数估计由于三组数据均服从四维正态分布，首先要确定数据的具体分布，因此在分类之前，利用一部分实验数据进行训练，分别得到三组数据的四维正态分布参数。即，分别为setosa，versicolou和virginica三组数据的参数。实验中，参数估计采用矩估计法，即利用样本（训练数据）的均值向量和协方差矩阵作为总体的均值向量和协方差矩阵的估计值，进而得到每组数据的分布密度函数。以第一组数据为例：setosa中的数据服从均值为四维列向量，4*4维协方差矩阵B的四元正态分布。均值向量和协方差矩阵的估计式为：从第一类数据中选取部分数据按照上式进行训练，得到第一类数据的正态分布参数，因而可求得其密度函数。三类数据都按照上公式，选取部分实验数据得出正态分布的均值向量和协方差矩阵。进而得到自己的概率密度公式2.3 贝叶斯最大后验概率准则利用贝叶斯准则对数据进行两两分类时，以贝叶斯公式为基础，利用测量到的对象特征配合必要的先验信息，求出两种可能分类情况的后验概率，选取后验概率大的，作为分类的结果。即最大后验概率准则，也称最小错误概率准则。以第一类和第二类为例，对这两组数据进行分类。两组数据经过参数估计之后，分别得到条件概率密度，。根据贝叶斯准则：贝叶斯最大后验概率准则进行分类时，根据输入的列向量，分别计算两类的后验概率，判x为后验概率的大类别，即：如果则判别x为类（第一类）即：即：因此根据最大后验概率准则判断x所属的类别，转变为比较似然比和阈值的大小。实验中首先求得两类数据的条件概率密度和，关于先验概率，实验进行时，将待分类的两组数据合并放入一个100*4的矩阵中，每次随机选取待分类数据x，因此先验概率故而，判别式（8）简化为：因此，根据上式即可对输入向量x进行分类。如果则判别x为类（第一类）同理如果则判别x为类（第二类）3、实验过程实验中，根据实验原理，首先对两组数据分别进行训练，得到其四维正态分布的密度函数，再根据最大后验概率准则进行分类。3.1 参数估计已知三组数据均为的四元正态分布，即其中，为均值向量，B为协方差矩阵，和均为四维列向量。根据式（2）和（3）对每组数据的均值向量和协方差矩阵进行估计。参数估计即选取部分数据进行训练，数据可以采用随机选取的方式，也可以从开始固定的选取若干数据进行训练。同时，参与训练的数据多少也会影响最后的分类结果。实验中尝试了不同的选取方法，结果如下：（1）从前向后依次选取10个数据进行训练：（2）从前向后依次选取15个数据进行训练：（3）从前向后依次选取20个数据进行训练：（4）从前向后依次选取25个数据进行训练：（5）随机选取15个数据进行训练：（6）随机选取20个数据进行训练：3.2 贝叶斯分类学习分类时，本实验中，将待分类的两类数据合并为一个矩阵test，然后每次随机的从test矩阵中抽取一维向量进行分类判别。因此先验概率满足所以，实验中只需要根据估计的参数得出两类的概率密度函数对于输入的列向量x带入上面两个公式中进行计算，则x归入概率大的一类。下面以第一类和第二类分类为例进行说明：实验中，m:表示参与训练的数据个数，进行分类学习时t:表示每次学习的次数，实验置为10000，即每次随机选取10000次x进行分类test矩阵:将待分类的两组数据合并为一个矩阵test，之后随机的从test矩阵中选择输入向量，保证先验概率相等W向量:表示随机选择的输入向量的位置，若W(i)51则说明此时的输入向量来自第一类，W(i)50则说明此时的输入向量来自第二类set向量:输入的x判别属于第一类，则将set的相应位置1，否则置0ver向量:输入的x判别属于第二类，则将ver的相应位置1，否则置0最后比较W向量和set向量、ver向量，若选择于第一类（W(i)51）也判别为第一类（set(i)=1），则说明判别正确。第二类同理。部分框图如下所示：相应部分代码如下：最后，统计set向量和ver向量中不为0的元素个数即在10000次学习分类