《2014贝叶斯分类.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《2014贝叶斯分类

贝叶斯分类 1、定义: 依据贝叶斯准则(两组间最大分离原则)建立的判别函数集进行的图像分类。 说明:表示事件B发生的前提下,事件A发生的概率;表示事件A发生的概率;事件B发生的概率。则可以求得事件A发生的前提下,事件B发生的概率。贝叶斯定理给出了最小化误差的最优解决方法,可用于分类和预测。 将前面贝叶斯公式变化如下: ? ? ? 上述公式中,C代表类别,X代表特征,很明显,我们做出预测肯定是利用当前的特征,来判断输出的类别。当然这里也可以很明显的看到贝叶斯公式先验与后验概率之间的转换,很明显,P(c|x)在我们的定义里面是后验概率,也是我们想要得到的东西。而P(x)、P(c) 以及P(x|c)都是先验概率,它们分别X特征出现的概率,C类出现的概率,C类中,出现X的概率。而第一项对于多类分类来说,都是一样,都是当前观察到的特征,所以此项可以略去。那最终的结果就是计算P(x|c)*P(c)这一项,P(c)是可以通过观察来解决的。重点也就全部落在了P(x|c)上,上面对于此项的解释是在C类中,X特征出现的概率,其实简单来讲,就是X的概率密度。 (1) 朴素贝叶斯算法(2) TAN算法1) 朴素贝叶斯算法成立的前提是各属性之间互相独立。当数据集满足这种独立性假设时,分类的准确度较高,否则可能较低。另外,该算法没有分类规则输出。设每个数据样本用一个n维特征向量来描述n个属性的值,即:X={x1,x2,…,xn},假定有m个类,分别用C1, C2,…,Cm表示。给定一个未知的数据样本X(即没有类标号),若朴素贝叶斯分类法将未知的样本X分配给类Ci,则一定是 P(Ci|X)P(Cj|X) 1≤j≤m,j≠i 根据贝叶斯定理 由于P(X)对于所有类为常数,最大化后验概率P(Ci|X)可转化为最大化先验概率P(X|Ci)P(Ci)。如果训练数据集有许多属性和元组,计算P(X|Ci)的开销可能非常大,为此,通常假设各属性的取值互相独立,这样 先验概率P(x1|Ci),P(x2|Ci),…,P(xn|Ci)可以从训练数据集求得。 根据此方法,对一个未知类别的样本X,可以先分别计算出X属于每一个类别Ci的概率P(X|Ci)P(Ci),然后选择其中概率最大的类别作为其类别。 —准备工作阶段,这个阶段的任务是为朴素贝叶斯分类作必要的准备,主要的工作是根据具体情况确定特征属性,并对每个属性进行适当划分,然后由人工对一部分分类项进行分类,形成训练样本集合。这一阶段的输入是所有带分类数据,输出是特征属性和训练样本。 第二阶段—分类器训练阶段,这个阶段的任务是生成分类器,主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计,并将结果记录。其输入是特征属性和训练样本,输出是分类器。 第三阶段—应用阶段,这个阶段的任务是使用分类器对待分类项进行分类,期输入是分类器和待分类项,输出是待分类项和类别的映射关系。 (2) TAN算法 TAN算法通过发现属性对之间的依赖关系来降低NB中任意属性之间独立的假设。它是在NB网络结构的基础上增加属性对之间的关联(边)来实现的。 实现方法是:用结点表示属性,用有向边表示属性之间的依赖关系,把类别属性作为根结点,其余所有属性都作为它的子节点。通常,用虚线代表NB所需的边,用实线代表新增的边。属性Ai与Aj之间的边意味着属性Ai对类别变量C的影响还取决于属性Aj的取值。这些增加的边需满足下列条件:类别变量没有双亲结点,每个属性有一个类别变量双亲结点和最多另外一个属性作为其双亲结点。 找到这组关联边之后,就可以计算一组随机变量的联合概率分布如下: 其中ΠAi代表的是Ai的双亲结点。由于在TAN算法中考虑了n个属性中(n-1)个两两属性之间的关联性,该算法对属性之间独立性的假设有了一定程度的降低,但是属性之间可能存 在更多其它的关联性仍没有考虑,因此其适用范围仍然受到限制。 朴素贝叶斯分类代码 matlab 2010-04-07 15:54 classdef NaiveBayesClassifier ??? %只进行所有属性是 分类属性 的分类情形 ??? properties(SetAccess = private, GetAccess = private ) ??????? %diff_cls_values 和 cls_percent 是一一对应关系。 ??????? diff_cls_values; %标签值 (列) ??????? cls_percent;?? %标签值对应的百分比 (列) ??????? cls_atr_value; %元组 代表第i类别中第j属性的 所有值 ??????? cls_atr_perc; %元组 代表第i类别中第j属性中不同值的百分比 ??? end ?

文档评论(0)

caiyl9924 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档