- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于特征数据库的邮件Bayes分类器设计与实现.pdf
计算机科学2004V01.31№.10(增刊)
基于特征数据库的邮件Bayes分类器设计与实现
andRealizationof CIassifier
Design BasedonCharacter
B3yes Databaseof
E—Mall
陆海峰何小卫
(浙江师范大学信息科学与工程学院金华321004)
AbstractThi3 the ofdata mtothe
information the
paperimportsth。ugh mini“g domain。fE—Mall,uses
techmque
o“ext
classification,theof andstatistics
to theE—Mail thearlthmeticof
theo‘yprobability cla83ify automaticallyby
after
the and ofthe
Bayes informationchar8cterolE.Mail
pkk-upcompres3
Keywords
Data“ning,ProbabiIity,Class.fy
于每一个测试样本,将已知的类标号与该样本的学
1引言
习模型类预测比较,如果认为模型的准确率可以接
随着Internet的发展,电子邮件作为快捷、廉价
受,就可以用它对类标号未知的未分类邮件进行分
的现代通信方式.已经成为越来越多人的重要通信 类。
选择方式。大量“垃圾”邮件的存在是不争的事实,它
们既浪费人们的时间,又占用宝贵的网络资源,利用
邮件较准确的自动分类功能我出“垃圾”邮件,对于
用户客户端尤其是对于收发邮件的服务端具有非常
重要的意义:不仅可以对邮件服务器接收到的邮件
进行分类,更重要的是可以利用自动分类对邮件服
务器转发出去的邮件在发送前进行“过滤”,从而在 图1样本训练
很大程度上堵住“垃圾”邮件的来源。
本文在电子邮件信息的特征提取和电子邮件信
息的特征压缩的基础上,研究对基于特征数据库的
邮件Bayes分类器设计与实现。
2数据分类
数据分类是一个两步的过程。 固2样本测试
第一步(图1),建立一个模型,描述预定的数据
类集或概念集,通过分析由属性描述的数据库元组
5分类算法及分类过程
来构造模型。对于分类,数据元组也被称作样本,实
例或对象。为建立模型而被分析的数据元组形成训 5.1 贝叶斯分类的定义
练数据集,训练数据集中的单个元组称作训练样本, 邮件分类是系统的实质阶段,在此垃圾邮件和
该步也称作有指导的学习。 非垃圾邮件分别定义为两个类c1]。它们以特征提取
通常,学习模型
文档评论(0)