基于朴素贝叶斯的文本分类算法.docx

下载文档

53
0
约1.39万字
约 19页
2021-07-14 发布于广西
举报
版权申诉
保障服务

基于朴素贝叶斯的文本分类算法.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于朴素贝叶斯的文本分类算法摘要：常用的文本分类方法有支持向量机、K?近邻算法和朴素贝叶斯。其中朴素贝叶斯具有容易实现，运行速度快的特点，被广泛使用。本文详细介绍了朴素贝叶斯的基本原理，讨论了两种常见模型：多项式模型 (MM)和伯努利模型(BM),实现了可运行的代码，并进行了一些数据测试。关键字：朴素贝叶斯：文本分类 Text Classification Algorithm Based on Naive Bayes Author: sou Imach i ne Ema i I: sou | mach i ne@qma il ? com Blog: www. vani i uvani i u. com Abstract: Usual ly there are three met hods for t ext classification: SVM ? KNN and Naive Bayes ? Naive Bayes is easy to implement and fast, so it is widely used ? This article int roduced the theory of Naive Bayes and discussed two popular mode I s: multino mia I mode I (MM) and Bernoul li mode I (BM) in details, imp I emented runnable code and performed some data tests. Keywords: naive bayes; text classifiestion 第1章贝叶斯原理 1.1贝叶斯公式设A、B是两个事件，且P(A) 0,称为在事件A发生的条件下事件B发生的条件概率。乘法公式 P (XYZ) =P (Z | XY) P(Y|X)P (X) 全概率公式 P(X)=P(X|Yi)+ P(X|Y2)+?+ P (X| Yn) 贝叶斯公式yr] 贝叶斯公式 yr] P(YJX)二在此处，贝叶斯公式，我们要用到的是以上公式，请读者参考《概率论与数理统计（第五版）》的1.4节“条件概率”（这里将原书中的A换成了 X, B换成了 Y），获得更深的理解。仁2贝叶斯定理在分类中的应用在分类（classification）问题中，常常需要把-个事物分到某个类别。一个事物具有很多属性，把它的众多属性看做一个向量，即X=（X2,X3, - - - ,Xn）,fflx这个向量来代表这个事物。类别也是有很多种，用集合丫叫附- yJ表示。如果x属于y1类别，就可以给x打上y1标签，意思是说x属于y1类别。这就是所谓的分类（Cl ass if icat ion）。 x的集合记为X,称为属性集。一般X和丫的矣系是不确定的，你只能在某种程度上说x有多大可能性属于类W, 比如说x有80%的可能性属于类y1,这时可以把X和丫看做是随机变量，P（Y|X）称为Y的后验概率（posterior probability），与之相对的，P （Y）称为 Y 的先验概率（prior probabi I ity）（2）。在训练阶段，我们要根据从训练数据中收集的信息，对X和Y的每一种组合学习后验概率P （Y|X）。分类时，来了一个实例x,在刚才训练得到的一堆后验概率中找出所有的P （Y|x）,其中最大的那个y,即为x所属分类。根据贝叶斯公式，后验概率为 ,PvX !F）F（F） d 在比较不同Y值的后验概率时，分母P （X）总是常数，因此可以忽略。先验概率P（Y）可以通过计算训练集中属于每一个类的训练样本所占的比例容易地估计。我们来举个简单的例子，让读者对上述思路有个形象的认识（3）。考虑一个医疗诊断问题，有两种可能的假设：（1）病人有癌症。（2）病人无癌症。样本数据来自某化验测试，它也有两种可能的结果：阳性和阴性。假设我们已经有先验知识：在所有人口中只有0.008的人患病。此外，化验测试对有病的患者有98%的可能返回阳性结果，对无病患者有97%的可能返回阴性结果。上面的数据可以用以下概率式子表示： P （cancer） =0. 008, P （无 cancer） =0. 992 P （阳性丨 cancer） =0. 98, P （阴性丨 cancer） =0. 02 P （阳性丨无 cancer） =0. 03, P （阴性 I 无 cancer） =0. 97 假设现在有一个新病人，化验测试返回阳性，是否将病人断定为有癌症呢？在这里，Y -{cancer,无cancer），共两个类别，这个新病人是一个样本，他有一个属性阳性，可以令乂=（阳性）。我们可以来计算