- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
优秀硕士毕业论文,完美PDF格式,可在线免费浏览全文和下载,支持复制编辑,可为大学生本专业本院系本科专科大专和研究生学士硕士相关类学生提供毕业论文范文范例指导,也可为要代写发表职称论文提供参考!!!
Master Degree Dissertation of Chongqing University
An Intelligent And Integrated Method Of
Spam Filtering With Double Engines
Master Degree Candidate: Zhou Yong
Supervisor: Prof. Chen yongzhang
Major: Computer Software and Theory
College of Computer Science
Chongqing University
April 2007
摘 要
最近几年,互联网进入了飞速发展的时期,尤其是电子邮件的广泛使用极大
的方便了人们的通讯交往,降低了人们的通讯成本,与此同时,也产生了新的问
题——大量垃圾邮件的涌现,这也导致花大量的时间和精力来处理来垃圾邮件。
如何更加准确地将垃圾邮件从正常邮件中区分出来并过滤掉,已经成为一个世界
性的课题,即反垃圾邮件问题。
为了解决这个让人棘手的问题,一定要采取一个系统化的方案,包括立法、
社会组织、技术方法。从技术的角度出发,传播垃圾邮件和过滤垃圾邮件是此消
彼长的长期斗争过程,就像反病毒一样。为此,本文就反垃圾邮件的应用技术,贝
叶斯分类模型,中心距向量空间模型,多分类模型组合等相关理论和知识进行了
研究。
基于概率统计原理的贝叶斯分类算法是一种经典的文本分类方法,它本身具
有理论发展成熟,分类准确度高的特点;中心距向量空间模型是一种新颖的文本
分类算法,由于其很好的准确性,良好的多分类性能,目前也被广泛应用到各类
文本分类应用中。
在分析了这几种方法和技术在邮件过滤应用中各自的优缺点后,根据这几种
算法的优缺点,对它们进行改良、相互结合、并增加了通过查看发出的邮件内容
进行自动学习的机制。另外,该算法针对中英文垃圾邮件采用不同的学习算法,
从而建立一个适用中英文环境的垃圾邮件过滤方法。实验表明,该方法的效率和
性能达到了较好的水平。
本文用VC++和MySQL数据库设计了一个基于贝叶斯算法的垃圾邮件过滤系
统。具体实现是通过将基于TDI 网络驱动过滤的技术和应用层的基于贝叶斯算法和
中心距向量算法的文本分类技术结合起来达到的。为了提高贝叶斯算法对中文邮
件的处理精度,引入了中文分词机制。中文分词采用的中国科学院计算技术研究
所汉语词法分析系统ICTCLAS 的开源代码。经过测试,系统的的垃圾邮件过滤功
能的效果相当的好。
关键词:垃圾邮件,正常邮件,黑白名单,规则,贝叶斯过滤算法
I
ABSTRACT
Nowadays, it is the golden periods when internet is violently rushing. Especially,
Email appears which brings a great convenience to people and reduces the cost of
communication between people. At the same time, a new trouble comes up, that is to
say, a large number of junk mails squeeze into people’s mailbox which leads to the huge
cost of people’s time and energies. How to accurately distinguish junk mails from
numerous mails and dispose them has become a world-wide issue. This is called as
“Anti
文档评论(0)