第6章-贝叶斯分类器.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第06章 贝叶斯分类器贝叶斯定理朴素贝叶斯算法极大似然估计贝叶斯网络EM算法6.1 引言计算机科学家和统计学家都会利用样本数据集训练计算机,使之能进行判断和推理。计算机科学家主要关心这些推理方法如何在计算机上有效地实现,而统计学家主要关心如何构建一个使用这些数据进行逻辑推理和判断的数学框架。如果对某个过程缺乏先验知识,这时可以将其视作一个随机过程,使用概率理论来分析。例如,投掷硬币就是一个典型的随机过程,因为我们不能预测任意一次投币的结果是正面还是反面,而只能谈论下一次投币是正面或反面的概率。6.1 引言?随机试验是其结果不能提前以确定的方式预测的试验。假定所有可能的结果构成样本空间S,如果结果是有限的,则该样本空间是离散的;否则就是连续的。当一个试验在完全相同的条件下不断重复时,对于任意事件E,结果在E中的次数所占的比例趋近于某个常数时,这个常数极限频率就是该事件E的概率P(E)。概率性质:非负性,。如果是不可能出现的事件,则;如果是一定出现的事件,则。规范性,如果S包含所有可能结果的样本空间,则。可列可加性,如果是互斥的(即,对于任意的事件,有),则有6.1 引言?已知条件(似然)概率P(B|A)的情况下,如何求后验概率P(A|B)?假定事件A和事件B是随机试验E的两个随机事件,则似然概率,表示已知事件A发生的前提下,事件B发生的概率。随着随机事件A的出现,将样本空间缩小到A。接着,随机事件B的出现将样本空间进一步缩小到A。由于集合的∩运算是可交换的,因此有 整理得到贝叶斯公式(Bayes’ formula) 1763年6.1 引言?如果将A理解为假设,B理解为数据,那么贝叶斯定理告诉我们:在给定数据的条件下,如何计算假设成立的概率。先验概率,在观测到数据之前,人们对参数的了解。似然概率,如何在实验中引入观测数据,反映的是在给定参数下得到某组观测数据的可信度。后验概率是贝叶斯分析的结果,反映的是在给定数据和模型的条件下,人们对问题的全部认知。需要注意的是,后验指模型中参数的概率分布而不是某个值,该分布正比于先验乘以似然。证据,也叫做边缘似然。证据是在模型的参数取遍所有可能值的条件下得到指定观测值的概率的平均。6.1 引言?假设样本空间S是由N个独立的互斥事件构成,即那么则有根据贝叶斯公式,后验概率为6.2 朴素贝叶斯分类朴素贝叶斯分类(Naive Bayes Classifier)是基于贝叶斯定理和特征条件独立假设的分类算法。朴素贝叶斯分类器源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。朴素贝叶斯模型的参数也不多,对缺失数据不太敏感,算法实现比较简单。通俗地讲,朴素贝叶斯分类器可以看作:对于给定的待分类项,求解在该分类项出现的条件下,各个类别出现的概率。根据各个类别出现的概率,哪个最大,就将其划归为那个类别。6.2 朴素贝叶斯分类6.2.1 朴素贝叶斯算法假设样本 ,标签 。令x为X上的随机向量,y是Y上的随机向量,P(X,Y)为X和Y的联合概率分布。假定训练数据集 是由P(X,Y)独立同分布产生的,那么朴素贝叶斯算法可从训练数据集T中学习联合概率分布P(X,Y),即先验概率分布:条件(似然)概率分布:朴素贝叶斯算法有一个假设:在分类确定的条件下,要求分类的各个特征是条件独立的。根据贝叶斯定理,计算后验概率:考虑分类特征的条件独立假设,有:于是,朴素贝叶斯分类器表示为:由于对所有的,上式的分母都相同,因此可简写为:6.2 朴素贝叶斯分类6.2 朴素贝叶斯分类6.2.2 朴素贝叶斯分类算法朴素贝叶斯分类算法大致可分为三个阶段:准备工作阶段:这一阶段的输入是所有待分类数据,输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段,其质量对整个过程将有重要影响,分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。分类器训练阶段:其输入是特征属性和训练样本,输出是分类器。这一阶段是机械性阶段,根据前面讨论的公式可以由程序自动计算完成。应用阶段:其输入是分类器和待分类项,输出是待分类项与类别的映射关系。这一阶段也是机械性阶段,由程序完成。6.2 朴素贝叶斯分类6.2.2 朴素贝叶斯分类算法6.2 朴素贝叶斯分类6.2.2 朴素贝叶斯分类算法例如,使用贝叶斯分类器对垃圾邮件进行分类和过滤。贝叶斯分类器需要依赖历史数据进行学习,假定包含关键词“中奖”的就算作垃圾邮件。先经过人工筛选找出10封邮件,并对包含关键词“中奖”的邮件标注为垃圾邮件(Spam)。序号包含关键词(“中奖”)邮件类

文档评论(0)

jyr0221 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档