- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
                        查看更多
                        
                    
                基于朴素贝叶斯的文本分类算法
摘要:常用的文本分类方法有支持向量机、K?近邻算法和朴素贝叶斯。其中朴素贝叶斯具有容易实现,运 行速度快的特点,被广泛使用。本文详细介绍了朴素贝叶斯的基本原理,讨论了两种常见模型:多项式模型 (MM)和伯努利模型(BM),实现了可运行的代码,并进行了 一些数据测试。
关键字:朴素贝叶斯:文本分类
Text Classification Algorithm Based on Naive Bayes
Author: sou Imach i ne
Ema i I: sou | mach i ne@qma il ? com
Blog: www. vani i uvani i u. com
Abstract: Usual ly there are three met hods for t ext classification: SVM ? KNN and Naive Bayes ?
Naive Bayes is easy to implement and fast, so it is widely used ? This article int roduced the theory of Naive Bayes and discussed two popular mode I s: multino mia I mode I (MM) and Bernoul li mode I (BM) in details, imp I emented runnable code and performed some data tests.
Keywords: naive bayes; text classifiestion
第1章贝叶斯原理
1.1贝叶斯公式
设A、B是两个事件,且P(A) 0,称
为在事件A发生的条件下事件B发生的条件概率。
乘法公式 P (XYZ) =P (Z | XY) P(Y|X)P (X)
全概率公式 P(X)=P(X|Yi)+ P(X|Y2)+?+ P (X| Yn)
贝叶斯公式yr]
贝叶斯公式
yr]
P(YJX)二
在此处,贝叶斯公式,我们要用到的是
以上公式,请读者参考《概率论与数理统计(第五版)》的1.4节“条件概率”(这里将原 书中的A换成了 X, B换成了 Y),获得更深的理解。
仁2贝叶斯定理在分类中的应用
在分类(classification)问题中,常常需要把-个事物分到某个类别。一个事物具有很多属性,把它的众多属性 看做一个向量,即X=(X2,X3, - - - ,Xn),fflx这个向量来代表这个事物。类别也是有很多种,用集合丫叫附- yJ表示。如果x属于y1类别,就可以给x打上y1标签,意思是说x属于y1类别。这就是所谓的分类(Cl ass if icat ion)。
x的集合记为X,称为属性集。一般X和丫的矣系是不确定的,你只能在某种程度上说x有多大可能性属于类W, 比如说x有80%的可能性属于类y1,这时可以把X和丫看做是随机变量,P(Y|X)称为Y的后验概率(posterior probability),与之相对的,P (Y)称为 Y 的先验概率(prior probabi I ity) (2)。
在训练阶段,我们要根据从训练数据中收集的信息,对X和Y的每一种组合学习后验概率P (Y|X)。分类时,来 了一个实例x,在刚才训练得到的一堆后验概率中找出所有的P (Y|x),其中最大的那个y,即为x所属分类。根据 贝叶斯公式,后验概率为
,PvX !F)F(F) d
在比较不同Y值的后验概率时,分母P (X)总是常数,因此可以忽略。先验概率P(Y)可以通 过计算训练集 中属于每一个类的训练样本所占的比例容易地估计。
我们来举个简单的例子,让读者对上述思路有个形象的认识(3)。
考虑一个医疗诊断问题,有两种可能的假设:(1)病人有癌症。(2)病人无癌症。样本数据来自某化验测 试,它也有两种可能的结果:阳性和阴性。假设我们已经有先验知识:在所有人口中只有0.008的人患病。此 外,化验测试对有病的患者有98%的可能返回阳性结果,对无病患者有97%的可能返回阴性结果。
上面的数据可以用以下概率式子表示:
P (cancer) =0. 008, P (无 cancer) =0. 992
P (阳性丨 cancer) =0. 98, P (阴性丨 cancer) =0. 02
P (阳性丨无 cancer) =0. 03, P (阴性 I 无 cancer) =0. 97
假设现在有一个新病人,化验测试返回阳性,是否将病人断定为有癌症呢?
在这里,Y -{cancer,无cancer),共两个类别,这个新病人是一个样本,他有一个属性阳性,可以令乂=(阳 性)。
我们可以来计算
                 原创力文档
原创力文档 
                        

文档评论(0)