- 5
- 0
- 约 7页
- 2017-08-26 发布于江苏
- 举报
垃圾邮件快速检测技术
摘 要: 提出了高速网络环境下一种实时检测垃圾邮件的方法,将正文抽取一部分做指纹散列,散列后的指纹值可以发现重复的正文内容。不需要解码也不需要处理全部邮件内容,并且散列内容数量和邮件大小无关 尤其对于普通文本分类方法无法处理的二进制类型的垃圾邮件有较好的处理效果,适合在高速骨干网络环境下作为一种快速垃圾邮件检测的手段。初步实验证明,该方法具有较高的处理速度,重复内容判定准确。
关键词: 垃圾邮件 高速网络环境 快速检测
目前通常采用文本分类来识别垃圾邮件。例如贝叶斯分.类算法.决策树.支持向量机等,这些方法通过一定的训练分类可以达到较高的识别率,但它们都需要对邮件进行解码分词和做大量概率运算,处理过程非常复杂,需要很多的处理时间,且不适合在高速网络环境下应用。
本文所指的高速网络环境是指在一些骨干网络中稳定的 网络流量可以达到每秒几百兆 几千兆比特,对信息进行任何处理都需要极高的性能,而在低速百兆位网中适用的方法会因为无法达到对数据的线性处理而失效。另外,垃圾邮件的内容特征变化很大,这导致了基于内容过滤的方法需要不断地训练和更新,在对新类型的垃圾邮件的判定方面往往有一定的滞后。
目前有很多邮件蠕虫病毒或者新型的垃圾邮件为了逃避文本分类方法的过滤,将垃圾内容或者病毒
原创力文档

文档评论(0)