基于属性加权朴素贝叶斯分类算法改进.docVIP

基于属性加权朴素贝叶斯分类算法改进.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于属性加权朴素贝叶斯分类算法改进

基于属性加权朴素贝叶斯分类算法改进   摘要:通过对朴素贝叶斯算法的学习和理解,针对削弱朴素贝叶斯属性条件独立假设的问题,该文提出了一种改进的加权算法,该算法通过对增益率加权和关联度得分加权的思想来确定新的权重系数来提高准确性。最后,在MATLAB软件中使用UCI数据集对模型进行了验证。实验结果表明,相对于传统的朴素贝叶斯算法,改进后的算法提高了分类的准确率。   关键词:贝叶斯公式;朴素贝叶斯算法;MATLAB   中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)29-0257-02   贝叶斯算法也叫贝叶斯推理,在18世纪,英国学者贝叶斯曾提出计算条件概率的公式用来解决如下问题:在已经知道某条件概率情况下,怎样得到两个事件交换后的概率,即已知P(A|B)的情况下求P(B|A)。贝叶斯定理的进行分类的一个简单的应用就是朴素贝叶斯算法,它的基本思想就是对给出的等待分类的项,求出在此项出现的条件下各项类别出现的概率,在这些概率中找出最大的,就认为这个等待分类的项属于那个概率最大的对应的类别。   已知集合:C={y1,y2,y3,.....,yn}和I={x1,x2,x3,......,xn},通过构造相应的映射规则y=f(x),使得I集合中的任意元素xi有且仅有一??在C中的元素yi,使得yi=f(xi)成立。在分类问题中集合C就表示类别集合,I集合就表示数据集合,而映射规则f就是分类器。分类算法就是构造相应的分类器。分类算法基本上都是通过相关经验来构造相应的映射,在一般情况下未能构造完全准确的映射是因为分类算法缺少一定量的数据,最后可以通过对我们已经知晓的数据进行分析和整理来求出这一定概率上的分类。文献[1]提出了根据属性的重要性给不同属性赋不同权值的加权朴素贝叶斯(Weighted Naive Bayes,WNB)模型,并通过实验发现它们能改进朴素贝叶斯的分类效果。文献[2]则利用数据本身导出特征加权的方法来提高朴素贝叶斯分类器的分类性能。本文则是通过对增益率加权和关联度得分加权的思想来确定新的权重系数来提高准确性。   1 朴素贝叶斯分类原理   贝叶斯分类是非规则分类,首先通过我们已经分过类的例子集,训练出所需要的分类器,最后没有分类的数据可以使用分类器进行分类,这些分类器算法包含有基于结构的森林扩展、平均树扩展(ATAN)的朴素贝叶斯和基于属性的条件似然对数(CLL)朴素贝叶斯等。   贝叶斯分类具备以下几个特点:   (1) 可以对不确定的预测做出假设的特点,确定某一实例从属的类别,计算得出所求那一类的概率,明确不仅仅是把该实例绝对性的指给某一类,最后所求的实例从属的类就是拥有具有最大概率的类。   (2) 属性的类别可以是多样的,如离散、混合甚至是连续型的,实例的全部属性都要加入到联合概率计算中,即分类不止一个的属性决定。   (3) 对实例的预测也可以由多个假设加上权重的概率一起计算出,等等。   贝叶斯定理检验假设h的概率,基于假设的先验概率,给定假设下观察到不同数据的概率以及观察到数据的本身的先验概率。用P(h)表示假设h的初始概率。用P(D)表示即将要观察的数据D的先验概率,P(h|D)代表给定D时假设h成立的概率,P(D|h)表示假设成立的条件下D的概率。贝叶斯规则定义如下所示:   令Dc表示训练集D中第c类样本组成的集合,如果有充足的独立同分布样本,就可以容易的统计出类先验概率:   假设有m个类C1,C2,.....,Cm,给定元组X,在条件X下分类法将预测X属于具有最高后验概率的类,朴素贝叶斯预测X属于类Ci,当且仅当:   由贝叶斯定理易知:   由于P(X)对所有类为常数,所以最大化p(Ci|X)即P(X|Ci)P(Ci)最大即可。而P(Ci)即先验概率,P(X|Ci)即X样本属性的联合概率,计算方式如下:   由于(5)式的计算需要假设样本的n个属性相互独立,而在日常生活环境下,没有完全相互独立的事物存在,即事物之间必定存在着某种普遍的联系。因此在这种现实情况下朴素贝叶斯算法会受到一定的影响,为了削弱这种影响本文通过对(5)式中的属性进行加权,将属性间的相互独立要求削弱。即将(5)式修改如下:   现在就是寻找一个方法来计算这个权重w。   2 加权朴素贝叶斯计算模型   2.1 模型计算方式   在朴素贝叶斯分类器中,属性变量与类变量的关系并不是简单的是/否关系,所以属性加权方法的提出很大程度上弱化了朴素贝叶斯条件独立的假设。属性加权可以看作是属性选择的一个概括化和一般化。2004年zhang和sheng提出了一种基于增益率的属性加权方法,其属性权值的计算公式如下:   式中,GR(i)代表属性变量Ai的增益率

文档评论(0)

erterye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档