- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第4章朴素贝叶斯方法剖析
第4章 朴素贝叶斯方法;;4.1 朴素贝叶斯法的学习与分类;学习过程:
训练数据集
具体的,学习以下的先验概率分布和条件概率分布。
先验概率分布
条件概率分布
于是得到联合概率分布P(X,Y)
;在这里,x有n个特征,朴素贝叶斯法对条件概率分布对特征做了独立的假设。
朴素贝叶斯法分类时,对给定的输入x,通过学习计算先验概率和先验条件概率分布,再计算后验概率分布
;上式为朴素贝叶斯分类基本公式,所以朴素贝叶斯分类器可以表示为
式子中的分母其实就是P(X=x),这对所有的
都是一样的,于是分母可以省略
;4.1.2后验概率最大化的含义
应用朴素贝叶斯法将实例分到后验概率最大的类别里,这等价于期望风险最小化。
选择0-1损失函数:
期望风险函数:
;条件期望为:
现在对X=x逐个极小化:
;
通过期望风险最小化准则就得到后验概率最大化准则:;平滑算法
语料是有限的,不可能覆盖所有的词汇。比如说N元模型,当N较大的时候,由于样本数量有限,导致很多的先验概率值都是零,这就是零概率问题,例如一些词在词表中,但是却没有出现在语料库中。这说明语料库太小了,没能包括一些本来可能出现的词的句子。
做过物理实验的都知道,我们一般测量了几个点后,就可以画出一条大致的曲线,这叫做回归分析。利用这条曲线,可以修正测量的一些误差,并且还可以估计一些没有测量过的值。平滑算法用观测到的事件来估计未观察到的事件的概率。例如从那些比较高的概率值中匀一些给那些低的或者是零概率的事件。
加法平滑算法是最简单的一种平滑。加法平滑的原理是给每个项目增加 λ(1≥λ ≥0),然后再除以总数作为项目新的概率。因为数学家拉普拉斯首先提出用加1的方法估计没有出现过的现象的概率,所以加法平滑也叫做拉普拉斯平滑。
文档评论(0)