朴素贝叶斯分类器详细介绍探究.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
朴素贝叶斯分类器是一种应用基于独立假设的贝叶斯定理的简单概率分类器.更 精确的描述这种潜在的概率模型为独立特征模型。 目录 [隐藏]  1 简介  2 朴素贝叶斯概率模型  3 贝叶斯分类器特点  4 参数估计  5 样本修正  6 从概率模型中构造分类器  7 实例 o 7.1 性别分类  7.1.1 训练  7.1.2 测试 o 7.2 文本分类  8 讨论  9 参见  10 参考文献  11 外部链接 简介[编辑] 贝叶斯分类的基础是概率推理,就是在各种条件的存在不确定,仅知其出现概 率的情况下,如何完成推理和决策任务。概率推理是与确定性推理相对应的。 而朴素贝叶斯分类器是基于独立假设的,即假设样本每个特征与其他特征都不 相关。举个例子,如果一种水果其具有红,圆,直径大概 4 英寸等特征,该水 果可以被判定为是苹果。 尽管这些特征相互依赖或者有些特征由其他特征决定,然而朴素贝叶斯分类器 认为这些属性在判定该水果是否为苹果的概率分布上独立的。朴素贝叶斯分类 器依靠精确的自然概率模型,在有监督学习的样本集中能获取得非常好的分类 效果。在许多实际应用中,朴素贝叶斯模型参数估计使用最大似然估计方法, 换而言之朴素贝叶斯模型能工作并没有用到贝叶斯概率或者任何贝叶斯模型。 尽管是带着这些朴素思想和过于简单化的假设,但朴素贝叶斯分类器在很多复 杂的现实情形中仍能够取得相当好的效果。2004 年,一篇分析贝叶斯分类器问 题的文章揭示了朴素贝叶斯分类器取得看上去不可思议的分类效果的若干理论 上的原因。[1] 尽管如此,2006 年有一篇文章详细比较了各种分类方法,发现更 新的方法(如 boosted trees 和随机森林)的性能超过了贝叶斯分类器。[2] 朴 素贝叶斯分类器的一个优势在于只需要根据少量的训练数据估计出必要的参数 (变量的均值和方差)。由于变量独立假设,只需要估计各个变量的方法,而 不需要确定整个协方差矩阵。 朴素贝叶斯概率模型[编辑] 理论上,概率模型分类器是一个条件概率模型。 独立的类别变量 有若干类别,条件依赖于若干特征变量 , ,..., 。但 问题在于如果特征数量 较大或者每个特征能取大量值时,基于概率模型列出 概率表变得不现实。所以我们修改这个模型使之变得可行。 贝叶斯定理有以下 式子: 用朴素的语言可以表达为: 实际中,我们只关心分式中的分子部分,因为分母不依赖于 而且特征 的值 是给定的,于是分母可以认为是一个常数。这样分子就等价于联合分布模型。 重复使用链式法则,可将该式写成条件概率的形式,如下所示: 现在“朴素”的条件独立假设开始发挥作用:假设每个特征 对于其他特征 , 是条件独立的。这就意味着 对于 ,所以联合分布模型可以表达为 这意味着上述假设下,类变量 的条件分布可以表达为: 其中 (证据因子)是一个只依赖与 等的缩放因子,当特征变量的值 已知时是一个常数。 由于分解成所谓的类先验概率 和独立概率分布 ,上述概率模型的可掌控性得到很大的提高。如果这是一个 分类问 题,且每个 可以表达为 个参数,于是相应的朴素贝叶斯模型有 (k − 1) + n r k 个参数。实际应用中,通常取 (二分类问题), (伯努利分布作为特征),因此模型的参数个数为 ,其中 是二值分类 特征的个数。 贝叶斯分类器特点[编辑] 1、 需要知道先验概率 先验概率是计算后验概率的基础。在传统的概率理论中,先验概率可以由大量 的重复实验所获得的各类样本出现的频率来近似获得,其基础是“大数定律”, 这一思想称为“频率主义”。而在称为“贝叶斯主义”的数理统计学派中,他 们认为时间是单向的,许多事

文档评论(0)

xiaofei2001129 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档