- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于朴素贝叶斯算法的垃圾邮件分类 (Python实现)
CONTENTS
目录
0
简介
1
回顾:基本方法
2
算法
3
拉普拉斯平滑
4
实例:邮件分类
5
流行学习
East China Normal University
简介
朴素贝叶斯法:是基于贝叶斯定理和特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型对于给定的输入x,利用贝叶斯定理求出后验概率最大的输出y.朴素贝叶斯法实现简单,学习和预测的效率都很高,是业界常用的一种方法。
East China Normal University
Review1:分类问题综述
1
East China Normal University
各种化验检测数据来推断病情,这时医生就好比一个分类器,而这个医生诊断的准确率,与他当初受到的教育方式(构造方法)、病人的症状是否突出(待分类数据的特性)以及医生的经验多少(训练样本数量)都有密切关系。
回顾
算法
拉普拉斯平滑
邮件分类
流行学习
小结
Review2:贝叶斯定理
East China Normal University
回顾
算法
拉普拉斯平滑
邮件分类
流行学习
小结
算法:
East China Normal University
RID
age
income
student
credit_rating
class_buy_pc
1
youth
high
no
fair
no
2
youth
high
no
excellent
no
3
mid
high
no
fair
yes
4
senior
medium
no
fair
yes
5
senior
low
yes
fair
yes
6
senior
low
yes
excellent
no
7
mid
low
yes
excellent
yes
8
youth
medium
no
fair
no
9
youth
low
yes
fair
yes
10
senior
medium
yes
fair
yes
11
youth
medium
yes
excellent
yes
12
mid
medium
no
excellent
yes
13
mid
high
yes
fair
yes
14
senior
medium
no
excellent
no
Train_dataset
(表格来源:数据挖掘:
概念与技术 第3版)
回顾
算法
拉普拉斯平滑
邮件分类
流行学习
小结
East China Normal University
test:X=(age=youth,income=mediu,student=yes,credit_rating=fair)
(1)计算先验概率
P(buy_pc=yes)=9/14=0.643
P(buy_pc=no )=5/14=0.357
条件概率:
P(age=youth|buy_pc=yes)=2/9=0.22
P(age=youth|buy_pc=no)=2/5=0.600
P(income=medium|buy_pc=yes)=4/9=0.444
P(income=medium|buy_pc=no)=2/5=0.400
P(student=yes|buy_pc)=1/5=0.200
P(credit_rating=fair|buy_pc=yes)=6/9=0.667
P(credit_rating=fair|buy_pc=no)=2/5=0.400
回顾
算法
拉普拉斯平滑
邮件分类
流行学习
小结
East China Normal University
回顾
算法
拉普拉斯平滑
邮件分类
流行学习
小结
如果遇到零概率值怎么办?拉普拉斯平滑。
East China Normal University
回顾
算法
拉普拉斯平滑
邮件分类
流行学习
小结
流程图:
East China Normal University
准备阶段
分类器训练阶段
应用阶段
回顾
算法
拉普拉斯平滑
邮件分类
流行学习
小结
准备数据
从文本中构建词向量(贝努利模型)
East China Normal University
从文本中构建邮件向量(words2vec):
通常有两种实现方式:一种是基于贝努利模型,一种是基于多项式模型实现。我们采用前一种实现方式,将每个词的出现与否作为一个特征(词集模型,相对应的是词袋模型),不考虑单词在文档中出现的次数,因此在这个意义上相当于每个假设词是等权重的。
具体如下:
(1)遍历所有邮件,创建一个包含所有文档中出现的不重复的单词集合(即特征)。
(2)对于每一封邮件创建一个与单词集合等长的0向量。接着遍历
您可能关注的文档
- 园林苗木大苗培育.ppt
- 国际关系的决定性因素国家利益黄岩岛.ppt
- 国家大创答辩PPTgai.ppt
- 国际贸易出口报检报关单证PPT页.ppt
- 国际私法案例分析刚果金案仰融案.ppt
- 国际社会的主要成员张PPT.ppt
- 圆柱的认识PPT说课稿.ppt
- 图文并茂热电偶传感器.ppt
- 土工膜防渗设计.ppt
- 土石方开挖施工组织设计PPT汇报.ppt
- 2026秋季中国工商银行集约运营中心(佛山)校园招聘20人备考题库含答案详解(培优).docx
- 中国农业银行宁波市分行2026年度校园招聘214人备考题库附答案详解(夺分金卷).docx
- “梦工场”招商银行长沙分行2026寒假实习生招聘备考题库附答案详解(轻巧夺冠).docx
- 2026贵州省公共资源交易中心定向部分高校选调优秀毕业生专业技术职位考试备考题库完整参考答案详解.docx
- 中国建设银行建信金融资产投资有限公司2026年度校园招聘8人备考题库含答案详解(a卷).docx
- 中国农业银行宁夏回族自治区分行2026年度校园招聘146人备考题库及一套参考答案详解.docx
- 门头沟区青少年事务社工招聘1人备考题库附答案详解(模拟题).docx
- 中国建设银行运营数据中心2026年度校园招聘20人备考题库含答案详解ab卷.docx
- 中国建设银行建银工程咨询有限责任公司2026年度校园招聘9人备考题库及答案详解(有一套).docx
- 2026秋季中国工商银行重庆市分行校园招聘270人备考题库含答案详解(完整版).docx
原创力文档


文档评论(0)