人工智能创新实验教程 课件 第6章 朴素贝叶斯算法.pptx

人工智能创新实验教程 课件 第6章 朴素贝叶斯算法.pptx

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第六章朴素贝叶斯算法

朴素贝叶斯算法2目录

CONTENT01引言02模型概述03实验数据04算法实战05本章小结

引言01

引言在机器学习中,朴素贝叶斯分类是一种用于分类任务的简单而强大的算法。朴素贝叶斯分类基于应用贝叶斯定理,特征之间具有很强的独立性假设。朴素贝叶斯模型也称为简单贝叶斯或独立贝叶斯。所有这些名称都是指贝叶斯定理在分类器决策规则中的应用。这个分类器将贝叶斯定理的力量带到了机器学习中。朴素贝叶斯分类器使用贝叶斯定理来预测每个类的成员概率,例如给定记录或数据点属于特定类的概率。概率最高的类被认为是最可能的类。这也称为最大后验概率(MAP)。朴素贝叶斯是任何人都可以使用的最流行和对初学者友好的算法之一。

模型概述02

2模型概述6经典的概率论对小样本事件并不能进行准确的评估,若想得到相对准确的结论往往需要大量的现场实验;而贝叶斯理论能较好的解决这一问题,利用己有的先验信息,可以得到分析对象准确的后验分布,贝叶斯模型是用参数来描述的,并且用概率分布描述这些参数的不确定性。贝叶斯分析的思路由证据的积累来推测一个事物发生的概率,它告诉我们当我们要预测一个事物需要的是首先根据已有的经验和知识推断一个先验概率,然后在新证据不断积累的情况下调整这个概率。整个通过积累证据来得到一个事件发生概率的过程我们称为贝叶斯分析。朴素贝叶斯算法(NaiveBayesianalgorithm)是应用最为广泛的分类算法之一。?朴素贝叶斯方法是在贝叶斯算法的基础上进行了相应的简化,即假定给定目标值时属性之间相互条件独立。也就是说没有哪个属性变量对于决策结果来说占有着较大的比重,也没有哪个属性变量对于决策结果占有着较小的比重。虽然这个简化方式在一定程度上降低了贝叶斯分类算法的分类效果,但是在实际的应用场景中,极大地简化了贝叶斯方法的复杂性。

2模型概述7?在学习朴素贝叶斯之前先了解几个基本内容。

2模型概述8朴素贝叶斯分类(NBC)是以贝叶斯定理为基础并且假设特征条件之间相互独立的方法,先通过已给定的训练集,以特征词之间独立作为前提假设,学习从输入到输出的联合概率分布,再基于学习到的模型,输入X求出使得后验概率最大的输出Y。以下给出简单定义:

92模型概述朴素贝叶斯基于各特征之间相互独立,在给定类别为y$的情况下,上式可以进一步表示为下式: 由以上两式可以计算出后验概率为:

2模型概述10由于P(X)的大小是固定不变的,因此在比较后验概率时,只比较上式的分子部分即可。因此可以得到一个样本数据属于类别y_i的朴素贝叶斯计算:

2模型概述11朴素贝叶斯算法有3种类型。下面列出这3种类型:高斯朴素贝叶斯如果x是连续变量,如何去估计似然度P(x|yi)呢?我们可以假设在yi的条件下,x服从高斯分布(正态分布)。根据正态分布的概率密度函数即可计算出P(x|yi),公式如下:2.伯努利朴素贝叶斯在多元伯努利事件模型中,特征是描述输入的独立布尔变量(二元变量)。就像多项式模型一样,该模型也适用于使用二进制词出现特征而不是词频的文档分类任务。

2模型概述12?

实验数据03

3实验数据14本实验数据集AdultDataSet为美国1994年人口普查数据库中抽取而来,因此也称作“人口普查收入”数据集,共包含48842条记录,年收入大于50k的占比23.93%,年收入小于50k的占比76.07%,数据集已经划分为训练数据32561条和测试数据16281条。该数据集类变量为年收入是否超过50k,属性变量包括年龄、工种、学历、职业等14类重要信息,其中有8类属于类别离散型变量,另外6类属于数值连续型变量。该数据集是一个分类数据集,用来预测年收入是否超过50k。下图给出数据集简介:数据集下载链接为:/ml/datasets

3实验数据15 为了更好的立即数据集数据意义,下图给出了数据中变量字段:

3实验数据数据处理: 1、将数据拆分为单独的训练和测试集。

3实验数据172、编码分类变量:即将非数值化数据数值化

3实验数据183、特征缩放:当数值过大时,不利于计算机高效率的计算,因此可以将数值进行缩放。

算法实战04

4算法实战20模型构建:根据已知公式构建高斯朴素贝叶斯:根据数据类型,这里给出离散、非离散高斯构建过程

4算法实战www.islide.cc21对预测函数也分别建立离散数据、非离散数据的预测分别建立训练函数和预测函数后,基本模型就建立完成可以开始使用

2结果分析22

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档