基于信息几何构建朴素贝叶斯分类器.docVIP

下载本文档

16
0
约9.78千字
约 6页
2017-09-25 发布于广西
举报
版权申诉

基于信息几何构建朴素贝叶斯分类器.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于信息几何构建朴素贝叶斯分类器黄友平, 史忠植（中科院研究生院, 北京 100080）（1 中科院计算所智能信息处理重点实验室, 北京 100080）摘要：朴素贝叶斯分类器是机器学习中一种简单而又有效的分类方法。但是由于它的属性条件独立性假设在实际应用中经常不成立，这影响了它的分类性能。本文基于信息几何和Fisher分，提出了一种新的创建属性集的方法。把原有属性经过Fisher分映射成新的属性集，并在新属性集上构建贝叶斯分类器。我们在理论上探讨了新属性间的条件依赖关系，证明了在一定条件下新属性间是条件独立的。试验结果表明，该方法较好地提高了朴素贝叶斯分类器的性能。关键词：朴素贝叶斯分类器；信息几何；Fisher分；条件独立 1. 引言朴素贝叶斯分类器（Na?ve Bayesian Classifier）是一种基于Bayes理论的简单分类方法，它在很多领域都表现出优秀的性能[1][2]。朴素贝叶斯分类器的“朴素”指的是它的条件独立性假设虽然在某些不满足独立性假设的情况下其仍然可能获得较好的结果[3]，但是大量研究表明此时可以通过各种方法来提高朴素贝叶斯分类器的性能。改进朴素贝叶斯分类器的方式主要有两种：一种是放弃条件独立性假设，在NBC的基础上增加属性间可能存在的依赖关系；另一种是重新构建样本属性集，以新的属性组（不包括类别属性）代替原来的属性组，期望在新的属性间存在较好的条件独立关系。目前对于第一种改进方法研究得较多[2][4][5]。这些算法一般都是在分类精度和算法复杂度之间进行折衷考虑，限制在一定的范围内而不是在所有属性构成的完全网中搜索条件依赖关系。虽然如此，寻找条件依赖关系依然需要较复杂的算法。而通过重新构建样本属性集的方式则可以避免寻找条件依赖关系，保持朴素贝叶斯分类器的简单和直观。事实上，属性构造方法一直是机器学习领域中重要的方法之一，在决策树、规则学习、神经网络等方面得到了有效应用[6][7]。Pazzani提出了一种构建NBC的方法：BSEJ算法[8]，该算法是基于原有属性的笛卡儿积来构建新的属性。本文基于信息几何理论和Fisher分，提出了一种新的属性构造方法，从而得到一种新的朴素Bayes分类器IG-NBC(Information Geometry – Na?ve Bayes Classifier)。我们在理论上探讨了新属性间的条件独立关系，并对一些特殊情况进行了分析。最后给出了该算法与朴素贝叶斯分类器相比较的试验结果。 2. 信息几何和Fisher分信息几何是采用（Riemann流形上的）微分几何方法来研究统计学的理论。自1975年Efron首先在统计学中采用微分几何方法以来，许多统计学家在这方面进行了大量的工作。特别是由于甘利俊一（S.Amari）[9]-[12]和ZHU Haiyu[13]-[15]等人的杰出工作，使得信息几何理论得到学术界的广泛关注，成为统计学中一个令人瞩目的新分支，并在许多领域得到了大量应用。设m维样本空间上随机变量X的概率分布（参数）簇 S＝{p(X |θ)|θ∈Θ}，其中θ为该分布簇的参数向量，Θ为n维欧式空间Rn的一个开集。在p满足一些正则条件的情况下，S形成一个微分流形，称为统计流形，θ称为统计流形的自然坐标[9]。对于一个带参数θ的概率分布p(X |θ)，其对数似然函数记为：（1）其中为n维欧式空间的向量。记, , 则该概率分布的Fisher信息矩阵定义为：（2）在自然坐标θ下，Fisher信息矩阵成为此概率分布所对应的流形S的Riemann度量。事实上，从保持充分统计量变换下度量不变的意义上说，Fisher信息矩阵是统计流形上唯一合适的Riemann度量[16]。与欧式空间的距离不通，该度量具有相对坐标变化的不变性，从而在很大程度上现了样本分布的内在特征。设, 则Fisher信息矩阵I 可写为：（3）其中Ux又称为Fisher分。Fisher分作为一种特征抽取的手段，在机器学习领域得到了广泛的研究和应用[7][9][19][20]。可以看出，Fisher分Ux把m维样本空间中的每一个点映射为n维空间中的一个点：（4） Tsuda等人认为Fisher分可以完全地抽取出样本数据的类别分布信息，并可以分离出重要的属性和无关的属性[19]。 3. 基于Fisher分的朴素贝叶斯分类器一个m维的有监督训练样本：(x1, x2, ..., xm , C)，其中xi表示第I个属性，C表示类别。记X＝(x1, x2, ..., xm)，X的分布模型为S＝{p(X |θ)|θ∈Θ}，Θ为n维欧式空间的一个开集，S成为一个统计流形。