- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于朴素贝叶斯的中文垃圾短信过滤系统的设计
摘要:在传统垃圾短信过滤系统基础上引入了中文分词算法和朴素贝叶斯算法,使其具有了自学习能力,克服了传统垃圾短信系统需要人工设置、无法适应短信内容变化、误判率高的缺点。实践证明该短信过滤系统具有较高的准确率和适应力。
关键词:朴素贝叶斯;垃圾短信;短信过滤
中图分类号:TP302文献标识码:A文章编号:1009-3044(2008)32-1178-03
Design of Chinese SMS Spam Filtering System Based on the Naive Bayes
MOU Xiao-guang1, GONG Li-ning2
(1.Library, Qingdao Agricultural University, Qingdao 266109, China; 2.Network Center, Qingdao Agricultural University, Qingdao 266109, China)
Abstract: The Chinese word segmentation algorithm and the Naive Bayes algorithm are introduced into the tradition of SMS spam filtering system, it has a self-learning ability to overcome the defects of artificial setup of traditional spam SMS system , impossible adaptability to the changes in the content of the SMS and the high rate of miscarriage of justice. Practice has proved that the message filtering system has high accuracy and adaptability.
Key words: naive bayes; SMS spam; SMS filtering
1 引言
手机短信以其“短、快、新、奇”的模式已经成为人们一种非常重要的通讯方式,然而我们在享受短信给我们带来的便捷的同时,也不得不面对垃圾短信骚扰的无奈。据调查统计,2007年上半年,每位手机用户平均每周收到8.29条垃圾短信[1]。垃圾短信的无处不在,已经成为了电信系统的顽疾,给正在蓬勃发展的移动通信业带来了极大的负面影响。
目前实现垃圾短信的监控和过滤主要有两种机制,即内容关键字过滤机制和号码黑名单机制[2]。其中,内容关键字过滤机制中的关键字内容主要依靠人工添加的方法来实现,尚无法实现自动添加;而号码黑名单的生成可分为手工添加、实时自动生成和准实时自动生成等方法实现。但这两种机制的缺点是实现方法呆板且防范数量有限,由于垃圾短信的形式在不断演化,垃圾短信的发送特征和内容也在不断变化,为适应这种变化,必须研发新的垃圾短信自适应过滤系统,以提高系统的智能化水平。本文设计并实现了一个基于朴素贝叶斯的自适应垃圾短信过滤系统,将贝叶斯分类和中文分词技术引入垃圾短信过滤中,并将分析结果及时反馈给在线垃圾短信过滤系统,使系统具有更好的自适应性和较高的智能化水平。
2 朴素贝叶斯分类算法
目前著名的文本分类方法有Bayes、LLSF、SVM、KNN、决策树等[3]。贝叶斯(Bayes)分类方法是一种最常用的有指导的方法,以贝叶斯定理为理论基础,是一种在已知先验概率与条件概率的情况下的模式识别方法。贝叶斯分类器分两种:一种是朴素贝叶斯分类器,它假设一个属性对给定类的影响独立于其他属性,即特征独立性假设。当假设成立时,与其他分类算法相比,朴素贝叶斯分类器是最精确的。但是,文本属性之间的依赖关系是可能存在的。另一种是贝叶斯网络分类器。可以考虑属性之间的依赖程度,其计算复杂度比朴素贝叶斯高得多,更能反映真实文本的情况。贝叶斯网络分类器实现十分复杂,目前还停留在理论的研究阶段。因此本系统采用朴素贝叶斯分类算法解决短信内容检测、分类问题。
朴素贝叶斯分类器假设特征对于给定类的影响独立于其它特征,即特征独立性假设。对文本分类来说,它假设各个单词Wi和Wj之间两两独立,其原理见图1。
设训练样本集分为k类(正常短信和垃圾短信),记为C={C1,C2 ,…,Ck},则每个类Ci的先验概率为P(Ci), i=1,2,…,k,其值为Ci类的样本数除以训练集总样本数n。对于新样本d,其属于Ci类
文档评论(0)