- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于组合算法中文反垃圾邮件分类系统研究
基于组合算法中文反垃圾邮件分类系统研究
摘要:论述了一种采用组合算法实现的垃圾邮件分类系统,并在Windows平台下用Visual ??Basic 6.0实现。本系统工作在邮件客户端,基于邮件内容的解析,相对于只使用基于分类器的垃圾邮件分类系统,不仅能有效快速地分类邮件,同时提高了分类的精度、降低误判率。
关键词:垃圾邮件; 向量空间算法; 贝叶斯算法; 组合算法
中图分类号:TP309.2
文献标志码:A
文章编号:1001-3695(2008)06-1825-03
0引言
?ツ壳埃?随着互联网在全球的普及和应用的不断发展,电子邮件系统已经成为人们最常用的通信手段之一。然而,近年来大量垃圾邮件的泛滥,违背了早期设计邮件系统的初衷,令互联网用户措手不及,严重影响了用户使用邮箱的效率。各种种类的垃圾邮件的存在,在不同程度上对用户和网络环境造成了负面影响,目前这一问题已经引起了全球范围内的热切关注。据统计,2001年垃圾邮件仅占电子邮件总量的7%,2002年即达到29%至2003年7月就超过了51%, 2004年1月高达60%。2005年7月,中国互联网络信息中心(CNNIC)发布的《第十六次中国互联网络发展状况统计报告》显示,我国网民平均每周收到14.5封电子邮件。其中:正常电子邮件为5.2封;垃圾邮件却达到9.3封。网民每周收到的垃圾邮件数是非垃圾邮件数的近两倍!据Spamhaus数据显示,截止到2006年11月17日,中国位居第二是垃圾邮件最多的国家,已发现的垃圾邮件形式为305种。因此,在我国如何全面防范垃圾邮件已成为互联网的重点研究课题,具有广泛的实际应用价值。
?ソ?年来,有关反垃圾邮件技术的研究开始逐步兴起,相关的投入也越来越大。目前为止,常用的解决垃圾邮件的方法有[1]:反向域名验证、黑白名单、关键词过滤、基于规则方法的过滤和基于统计的过滤等。
?ピ谒?有反垃圾邮件技术中,基于向量空间算法的垃圾邮件分类器具有简单、快速的特点,但是它的查全率和查准率都相对差一点[2];基于朴素贝叶斯算法的垃圾邮件分类器是最常用的一种方法,它具有分类算法容易理解,分类精度高的等优点,所以在实际运用中都显示了良好的稳定性和精确度[3]。但是,由于朴素贝叶斯算法中假定不同的词在邮件中的出现是相互独立的,此假定在实际的邮件中是不成立的,词之间的相互依赖将导致朴素贝叶斯算法作出不恰当的估计,使得判断邮件是否属于某类邮件出现错误。邮件分类器的最终目的是不仅要分类速度够快,还要分类精度够高并尽可能地将误判率降到最低。为了实现这个想法,本文组合了向量空间分类算法和贝叶斯分类算法的优点,提出了经过组合后的新算法,目标是对于发来的一封新邮件,根据新邮件与训练集中合法邮件集的质心和垃圾邮件集的质心相似度来判定使用具体的分类算法。从而利用较少的时间获得较好的分类效果。
??1相关工作
1.1基于向量空间分类算法的邮件分类
?セ?于向量空间分类邮件算法的基本思想是[4]:用同一类电子邮件的质心代表它们的共同特征,需要被分类的邮件与质心比较,如果该邮件与质心的相似程度满足分类要求,则该邮件就可以被划分成质心所代表的这一类电子邮件。在向量空间算法中,每封邮件由空间向量模型表示,即用token(可以理解为字或词,但不仅限于字或词)出现频率表示的向量:mi=(w??i1,w??i2,…,w??in )。其中:m??i表示第i封邮件;n表示邮件空间的维数;w??ij表示每一个token的权重,它代表了该token相对于邮件来说的重要程度。表示token权重的方法有[5]TF-IDF、词频、互信息、信息熵等。本文采用TF-IDF的方法。
?ブ市南蛄?C可以看做是具有某种特征的一组向量的平均值,在邮件分类中,它用来表示邮件集合{m}的共同特征。设整个训练集的邮件数为N封,则训练阶段的时间复杂度为O(N)。
?ヒ环庑掠始?通过比较与垃圾邮件集和合法邮件集的质心向量的相似度,就可以把它划分到最相似的质心向量所代表的邮件类中。在分类阶段,对于每一封待分类的邮件,由于要计算两个相似度的值,时间复杂度为O(2)。可见,基于向量空间法的邮件分类是十分快速的。其在分类阶段基于向量空间法的邮件分类算法如下:
??
??1.2基于朴素贝叶斯分类算法的邮件分类
?テ铀乇匆端狗掷嗨惴ㄊ悄壳霸谟始?分类中广泛使用的一种方法,其主要思想是[5]:
?ジ?定一个训练集(由垃圾邮件集C??s和合法邮件集组成Ch),算法首先通过计算垃圾邮件和合法邮件在训练数据中发生的次数来估计每个类别的先验概率P(Cs)和P(Ch)。对于每封邮件独立的token串
您可能关注的文档
最近下载
- 意大利优尼卡壁挂炉.pdf VIP
- 思泰克光电SPI-故障代码与一般处理流程.pdf VIP
- Flowmaster V7 中文技术手册.doc VIP
- 六年级语文:《两小儿辩日》教学设计_1.docx VIP
- 古诗词诵读《鹊桥仙(纤云弄巧)》课件(共28张PPT)统编版高中语文必修上册.pptx VIP
- 四年级上册音乐教案-1《采一束鲜花》 人音版 (五线谱).docx VIP
- 六年级语文:《两小儿辩日》教学设计7.docx VIP
- 2025-2030年全球电子胃肠镜行业市场调研及投资前景预测报告.docx
- 六年级语文:《两小儿辩日》教案.docx VIP
- Flowmaster V7常见错误总结.pdf VIP
文档评论(0)