Python贝叶斯文本分类模型从原理到实现[定义].pdfVIP

下载本文档

11
0
约1.42万字
约 8页
2021-10-19 发布于江苏
举报
版权申诉

Python贝叶斯文本分类模型从原理到实现[定义].pdf

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Python贝叶斯文本分类模型从原理到实现朴素贝叶斯分类器是一种有监督学习，常见有两种模型，多项式模型 (multinomial model) 即为词频型和伯努利模型 (Bernoulli model) 即文档型。二者的计算粒度不一样，多项式模型以单词为粒度，伯努利模型以文件为粒度，因此二者的先验概率和类条件概率的计算方法都不同。计算后验概率时，对于一个文档 d ，多项式模型中，只有在 d 中出现过的单词，才会参与后验概率计算，伯努利模型中，没有在 d 中出现，但是在全局单词表中出现的单词，也会参与计算，不过是作为 “反方”参与的（避免消除测试文档时类条件概率中有为 0 现象而做的取对数等问题）。一、数据集数据集是有 8 个分类的文本数据集，使用了结巴分词对每个文本分词，每个单词当作特征，再利用二元词串构造更多特征，然后去掉停用词，去掉出现次数太多和太少的特征，得到了 19630 个特征。取 1998 个样本用于训练， 509 个用于测试。基于词袋模型的思路将每个文本转换为向量，训练集和测试集分别转换为矩阵，并用 python numpy 模块将其保存为 npy 格式。数据集共使用了 19630 个单词作为特征，特征值是词在文本中出现的次数。 8 个分类，分别是 1、2 、 ...、8 。训练集共 1998 个样本，测试集共 509 个样本。二、朴素贝叶斯分类器划分邮件算法朴素贝叶斯分类器，基于贝叶斯定理，是一个表现良好的分类方法。 1、公式原理推导主要根据事件间的相互影响进行公式推断。 1.1、条件概率 : P(A|B) = P(A,B)/P(B) A 和 B 是随机事件， P(A|B) 也就是在事件 B 发生的前提下事件 A 发生的概率。 P(A,B)表示 A 、B 都发生的概率。这样一来，我们可以通过统计结果计算条件概率。例如假设有 1000 封邮件，垃圾邮件有 300 封，出现单词购买的邮件为 50 封，而即是垃圾邮件又同时出现了购买这个单词的邮件共有 20 封。如果把垃圾邮件看成事件 A ，邮件里出现单词购买看成事件 B，那么 P(A)是指垃圾邮件出现的概率，因为没考虑其他的因素对 A 的影响，也可以将 P(A)看做 A 的先验概率，这里： P(A) = 300/1000 = 0.3 同理， P(B) = 50/1000 = 0.05 P(A,B)是指 A 和 B 同时发生的概率， P(A,B) = 20/1000 = 0.02 根据条件概率的公式，能够得到 P(A|B) = 0.02 / 0.05 = 0.4 因为有 B 的影响， P(A|B) 也叫做 A 的后验概率。 1.2、相互独立事件如果事件 A 和 B 是相互独立的，代表着 A 发生的可能性对 B 发生的可能性没有影响， B 也对 A 没有影响，在这种情况下： P(A,B) = P(A)*P(B)。既然 A 和 B 之间没有相互影响，那么： P(A|B) = P(A,B)/P(B) = P(A) P(B|A) = P(A,B)/P(A) = P(B) 1.3、贝叶斯定理由 P(A|B) = P(A,B)/P(B)很容易推出： P(A|B) = P(B|A)*P(A)/P(B) 这也就是贝叶斯公式了。 1.4、朴素贝叶斯分类器（ naive Bayes classifier）首先有以下定理：如果 B、C 相互独立，那么 P(B|C,A) = P(B|A) 。设有事件 A 、B1、B2，那么在 B1、B