基于朴素贝叶斯的文本分类算法.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于朴素贝叶斯的文本分类算法 摘要:常用的文本分类方法有支持向量机、K?近邻算法和朴素贝叶斯。其中朴素贝叶斯具有容易实现,运 行速度快的特点,被广泛使用。本文详细介绍了朴素贝叶斯的基本原理,讨论了两种常见模型:多项式模型 (MM)和伯努利模型(BM),实现了可运行的代码,并进行了 一些数据测试。 关键字:朴素贝叶斯:文本分类 Text Classification Algorithm Based on Naive Bayes Author: sou Imach i ne Ema i I: sou | mach i ne@qma il ? com Blog: www. vani i uvani i u. com Abstract: Usual ly there are three met hods for t ext classification: SVM ? KNN and Naive Bayes ? Naive Bayes is easy to implement and fast, so it is widely used ? This article int roduced the theory of Naive Bayes and discussed two popular mode I s: multino mia I mode I (MM) and Bernoul li mode I (BM) in details, imp I emented runnable code and performed some data tests. Keywords: naive bayes; text classifiestion 第1章贝叶斯原理 1.1贝叶斯公式 设A、B是两个事件,且P(A) 0,称 为在事件A发生的条件下事件B发生的条件概率。 乘法公式 P (XYZ) =P (Z | XY) P(Y|X)P (X) 全概率公式 P(X)=P(X|Yi)+ P(X|Y2)+?+ P (X| Yn) 贝叶斯公式yr] 贝叶斯公式 yr] P(YJX)二 在此处,贝叶斯公式,我们要用到的是 以上公式,请读者参考《概率论与数理统计(第五版)》的1.4节“条件概率”(这里将原 书中的A换成了 X, B换成了 Y),获得更深的理解。 仁2贝叶斯定理在分类中的应用 在分类(classification)问题中,常常需要把-个事物分到某个类别。一个事物具有很多属性,把它的众多属性 看做一个向量,即X=(X2,X3, - - - ,Xn),fflx这个向量来代表这个事物。类别也是有很多种,用集合丫叫附- yJ表示。如果x属于y1类别,就可以给x打上y1标签,意思是说x属于y1类别。这就是所谓的分类(Cl ass if icat ion)。 x的集合记为X,称为属性集。一般X和丫的矣系是不确定的,你只能在某种程度上说x有多大可能性属于类W, 比如说x有80%的可能性属于类y1,这时可以把X和丫看做是随机变量,P(Y|X)称为Y的后验概率(posterior probability),与之相对的,P (Y)称为 Y 的先验概率(prior probabi I ity) (2)。 在训练阶段,我们要根据从训练数据中收集的信息,对X和Y的每一种组合学习后验概率P (Y|X)。分类时,来 了一个实例x,在刚才训练得到的一堆后验概率中找出所有的P (Y|x),其中最大的那个y,即为x所属分类。根据 贝叶斯公式,后验概率为 ,PvX !F)F(F) d 在比较不同Y值的后验概率时,分母P (X)总是常数,因此可以忽略。先验概率P(Y)可以通 过计算训练集 中属于每一个类的训练样本所占的比例容易地估计。 我们来举个简单的例子,让读者对上述思路有个形象的认识(3)。 考虑一个医疗诊断问题,有两种可能的假设:(1)病人有癌症。(2)病人无癌症。样本数据来自某化验测 试,它也有两种可能的结果:阳性和阴性。假设我们已经有先验知识:在所有人口中只有0.008的人患病。此 外,化验测试对有病的患者有98%的可能返回阳性结果,对无病患者有97%的可能返回阴性结果。 上面的数据可以用以下概率式子表示: P (cancer) =0. 008, P (无 cancer) =0. 992 P (阳性丨 cancer) =0. 98, P (阴性丨 cancer) =0. 02 P (阳性丨无 cancer) =0. 03, P (阴性 I 无 cancer) =0. 97 假设现在有一个新病人,化验测试返回阳性,是否将病人断定为有癌症呢? 在这里,Y -{cancer,无cancer),共两个类别,这个新病人是一个样本,他有一个属性阳性,可以令乂=(阳 性)。 我们可以来计算

文档评论(0)

文档查询,农业合作 + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

认证主体土默特左旗农特农机经销部
IP属地广西
统一社会信用代码/组织机构代码
92150121MA0R6LAH4P

1亿VIP精品文档

相关文档