- 72
- 0
- 约6.77千字
- 约 73页
- 2020-06-13 发布于浙江
- 举报
第7章 贝叶斯分类算法;7.1 贝叶斯分类概述;7.1.2 贝叶斯信念网络; 例如,假设节点X直接影响到节点Y,即X→Y,则用从X指向Y的箭头建立节点X到节点Y的箭头(X,Y),权值(即连接强度)用条件概率P(Y|X)来表示,如图7.2所示。其中箭头表示条件依赖关系。; 定义7.2 对于随机变量(A1、A2、…、An),任何数据对象(a1、a2、…、an)的联合概率可以通过以下公式计算获得:; 【例7.2】有X、Y和Z三个二元随机变量(取值只有0、1两种情况),假设X、Y之间是独立的,它们对应的条件概率表如表7.1所示。若已知条件概率P(X=1)=0.3,P(Y=1)=0.6,P(Z=1)=0.7,求P(X=0,Y=0|Z=0)的后验概率。; 画出相应的贝叶斯网如图7.15所示。一般地,在画贝叶斯网时,若已知P(X|Y)条件概率,则画一条从Y到X的有向边;若已知P(X|Y1、Y2、…、Yk)条件概率,则从Y1、Y2、…、Yk各画一条从Yi(1≤i≤k)到X的有向边。;7.2 朴素贝叶斯分类; 给定一个未知类别的样本X,朴素贝叶斯分类将X划分到属于具有最高后验概率P(Ci|X)的类中,也就是说,将X分配给类Ci,当且仅当:
P(Ci|X)P(Cj|X),1≤j≤m,i≠j;根据贝叶斯定理有:
由于P(X)对于所有类为常数,只需要最大化P(X|Ci)P(Ci)即可。而P(X|Ci)是一个联合后验概率,即:
P(X|Ci)=P(A1,A2,…,An|Ci)=
所以对于某个新样本(a1,a2,…,an),它所在类别为:;2. 后验概率P(Ak|Ci)的计算
计算对于后验概率P(ak|Ci)(也称为类条件概率)的方法如下:
(1)如果对应的描述属性Ak是离散属性,可以通过训练样本集得到,P(ak|Ci)=sik/si,其中sik是在属性Ak上具有值ak的类Ci的训练样本数,而si是Ci中的训练样本数。
(2)如果对应的描述Ak是连续属性,则通常假定该属性服从高斯分布。因而:; 【例7.3】对于第6章表6.1的训练样本集S,所有属性为离散属性。n=2(描述属性个数),特征向量为A={a1,a2},描述属性为A1和A2(假设A1和A2之间相互独立)。类别属性为C,m=2(类别个数),C1=False,C2=True。对应的贝叶斯网如图7.7所示。求P(A1|C)和P(A2|C)。; (1)求条件概率P(Ci)
训练样本集S中有10个样本,即s=10,其中有6个属于C1的样本,4个属于C2的样本,所以有:
s1=6,s2=4
P(C1)=s1/s=6/10=0.6
P(C2)=s2/s=4/10=0.4;ID;考虑属性A2,按属性C和A2排序后的统计结果如表7.3所示。则:
P(A2=大|C=False)=s11/s1=1/6
P(A2=中|C=False)=s12/s1=4/6=2/3
P(A2=小|C=False)=s13/s1=1/6
P(A2=大|C=True)=s21/s2=2/4=1/2
P(A2=小|C=True)=s22/s2=2/4=1/2;7.2.2 朴素贝叶斯分类算法; 对于一个样本(a1,a2,…,an),求其类别的朴素贝叶斯分类算法如下:;【例7.4】对于第6章表6.4所示的训练数据集S,有以下新样本X:
年龄=≤30,收入=中,学生=是,信誉=中
采用朴素贝叶斯分类算法求X所属类别的过程如下:;(1)由训练样本集S建立贝叶斯网如图7.8所示。;(2)根据类别“购买计算机”属性的取值,分为两个类,C1表示购买计算机为是的类,C2表示购买计算机为否的类,它们的先验概率P(Ci)根据训练样本集计算如下:
P(C1)=P(购买计算机=是)=9/14=0.64
P(C2)=P(购买计算机=否)=5/14=0.36;(3)计算后验概率P(ai|Ci),先计算P(年龄=≤30|购买计算机=是)和P(年龄=≤30|购买计算机=否)。将训练数据集S按“购买计算机”和“年龄”属性排序后的统计结果如表7.4所示。则:
P(年龄=≤30|购买计算机=是)=s11/s1=2/9=0.22
P(年龄=≤30|购买计算机=否)=s21/s2=3/5=0.6;类似地求出下面的后验概率:
P(收入=中|购买计算机=是)=4/9=0.44
P(收入=中|购买计算机=否)=2/5=0.4
P(学生=是|购买计算机=是)=6/9=0.67
P(学生=是|购买计算机=否)=1/5=0.2
P(信誉=中|购买计算机=是)=6/9=0.67
P(信誉=中|购买计算机=否)=2/5=0.4;(4)假设条件独立性,X=(年龄=≤30,收入=中,学
您可能关注的文档
最近下载
- 2025年无人机驾驶员执照固定翼无人机失速特性专题试卷及解析.pdf VIP
- 2025年无人机驾驶员执照短距起飞与短距着陆技术专题试卷及解析.pdf VIP
- 2025年拍卖师线上红酒拍卖的运营与品鉴展示技巧专题试卷及解析.pdf VIP
- 2025年特许金融分析师气候风险衍生品概述与应用专题试卷及解析.pdf VIP
- 2025年金融风险管理师市场流动性风险计量专题试卷及解析.pdf VIP
- 劳务派遣的现状、问题与对策.doc VIP
- 2025年金融风险管理师数字货币期货对冲策略专题试卷及解析.pdf VIP
- 2025年高考真题分类汇编专题09化学反应速率与化学平衡(含解析).docx VIP
- 全国行政区划(至乡镇村街道社区)数据库.xls VIP
- 部编版二年级下册语文【全册全套】课件.pptx VIP
原创力文档

文档评论(0)