朴素贝叶斯分类.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
朴素贝叶斯分类 1.1、摘要 ?? 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文作为分类算法的第一篇,将首先介绍分类问题,对分类问题进行一种正式的定义。然后,介绍贝叶斯分类算法的基础——贝叶斯定理。最后,通过实例讨论贝叶斯分类中最简朴的一种:朴素贝叶斯分类。 1.2、分类问题综述 ? 对于分类问题,其实谁都不会陌生,说我们每个人每天都在执行分类操作一点都不夸张,只是我们没故意识到罢了。例如,当你看到一种陌生人,你的脑子下意识判断TA是男是女;你可能经常会走在路上对身旁的朋友说“这个人一看就很有钱、那边有个非主流”之类的话,其实这就是一种分类操作。 ? 从数学角度来说,分类问题可做以下定义: ? 已知集合:和,拟定映射规则,使得任意有且仅有一种使得成立。〔不考虑含糊数学里的含糊集状况〕 ? 其中C叫做类别集合,其中每一种元素是一种类别,而I叫做项集合,其中每一种元素是一种待分类项,f叫做分类器。分类算法的任务就是构造分类器f。 ? 这里要着重强调,分类问题往往采用经验性办法构造映射规则,即普通状况下的分类问题缺少足够的信息来构造100%对的的映射规则,而是通过对经验数据的学习从而实现一定概率意义上对的的分类,因此所训练出的分类器并不是一定能将每个待分类项精确映射到其分类,分类器的质量与分类器构造办法、待分类数据的特性以及训练样本数量等诸多因素有关。 ? 例如,医生对病人进行诊疗就是一种典型的分类过程,任何一种医生都无法直接看到病人的病情,只能观察病人体现出的症状和多个化验检测数据来推断病情,这时医生就好比一种分类器,而这个医生诊疗的精确率,与他当时受到的教育方式〔构造办法〕、病人的症状与否突出〔待分类数据的特性〕以及医生的经验多少〔训练样本数量〕都有亲密关系。 1.3、贝叶斯分类的基础——贝叶斯定理 ? 每次提到贝叶斯定理,我心中的崇拜之情都油然而生,倒不是由于这个定理多高深,而是由于它特别有用。这个定理解决了现实生活里经常碰到的问题:已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(A|B)的状况下如何求得P(B|A)。这里先解释什么是条件概率: 表达事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率。其基本求解公式为:。 ? 贝叶斯定理之因此有用,是由于我们在生活中经常碰到这种状况:我们能够很容易直接得出P(A|B),P(B|A)则很难直接得出,但我们更关心P(B|A),贝叶斯定理就为我们打通从P(A|B)获得P(B|A)的道路。 ? 下面不加证明地直接给出贝叶斯定理: ?? 1.4、朴素贝叶斯分类 1.4.1、朴素贝叶斯分类的原理与流程 ? 朴素贝叶斯分类是一种十分简朴的分类算法,叫它朴素贝叶斯分类是由于这种办法的思想真的很朴素,朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。通俗来说,就好比这样个道理,你在街上看到一种黑人,我问你你猜这哥们哪里来的,你十有八九猜非洲。为什么呢?由于黑人中非洲人的比率最高,固然人家也可能是美洲人或亚洲人,但在没有其它可用信息下,我们会选择条件概率最大的类别,这就是朴素贝叶斯的思想基础。 ? 朴素贝叶斯分类的正式定义以下: ? 1、设为一种待分类项,而每个a为x的一种特性属性。 ? 2、有类别集合。 ? 3、计算。 ? 4、如果,则。 ? 那么现在的核心就是如何计算第3步中的各个条件概率。我们能够这样做: ? 1、找到一种已知分类的待分类项集合,这个集合叫做训练样本集。 ? 2、统计得到在各类别下各个特性属性的条件概率预计。即 ???????。 ? 3、如果各个特性属性是条件独立的,则根据贝叶斯定理有以下推导: ?????? ? 由于分母对于全部类别为常数,由于我们只要将分子最大化皆可。又由于各特性属性是条件独立的,因此有: ?????? ? 根据上述分析,朴素贝叶斯分类的流程能够由下图表达〔临时不考虑验证〕: ? 能够看到,整个朴素贝叶斯分类分为三个阶段: ? 第一阶段——准备工作阶段,这个阶段的任务是为朴素贝叶斯分类做必要的准备,重要工作是根据具体状况拟定特性属性,并对每个特性属性进行适宜划分,然后由人工对一部分待分类项进行分类,形成训练样本集合。这一阶段的输入是全部待分类数据,输出是特性属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完毕的阶段,其质量对整个过程将有重要影响,分类器的质量很大程度上由特性属性、特性属性划分及训练样本质量决定。 ? 第二阶段——分类器训练阶段,这个阶段的任务就是生成分类器,重要工作是计算每个类别在训练样本中的出现频率及每个特性属性划分对每个类别的条件概率预计,并将成果统计。其输入是特性属

文档评论(0)

159****9606 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档