基于贝叶斯算法的垃圾邮件检测中数据预处理技术的研讨.pdfVIP

  • 19
  • 0
  • 约7.67千字
  • 约 5页
  • 2018-01-11 发布于广东
  • 举报

基于贝叶斯算法的垃圾邮件检测中数据预处理技术的研讨.pdf

基于贝叶斯算法的垃圾邮件检测中数据预处理技术的研究 155 基于贝叶斯算法的垃圾邮件检测中数据预处理技术的研究4 许小林唐文忠 北京航空航天大学计算机学院北京100083 摘要:本文针对目前作者所参与的课题,对基于最小风险贝叶斯算法的垃圾邮件检测系统中所使 用的数据预处理技术进行了说明,并且通过举例的方式直观形象的进行了描述。文章首先介绍了垃圾 邮件检测的发展状况,然后提出基于数据挖掘的检测方法;随后本文比较概括的介绍了基于皿叶斯算 法的垃圾邮件检测系统的模块设计;作为本文的核心,接下来文章仔细介绍了数据预处理模块的实现 方法,并用例子进行了说明;最后是本文的简要总结。 关麓词:贝叶斯垃圾邮件智能检测数据挖掘数据预处理 1引 言 每天。数以亿计的电子邮件通过Intemet传递各种信息。由于电子邮件的广泛应用,电子邮件本身的 一些应用缺陷日益暴露,它所带来的一系列问题目前已经成为计算机应用领域的一个研究热点,涉及多个 研究方向。 对于电子邮件应用目前面临的问题,可以主要归结为两类问题:附件病毒,以及垃圾邮件。对于电子 邮件附件所携带的病毒程序,大家并不陌生,它和其他应用系统中的病毒并无区别,只是转播的途径依赖 邮件的传输。国外有关机构经过统计还发现,电子邮件也是计算机病毒的主要传播载体,历年来世界上著 名的病毒爆发事件中,在80%以上的事件中电子邮件充当了传播病毒的罪魁祸首”J。 而另一类困扰电子邮件应用多年的问题是垃圾邮件的泛滥,这是当前影响电子邮件进一步发展的最主 要障碍。大量垃圾邮件的出现不但浪费用户的时间和精力去删除,而且还造成网络资源的浪费,当数量达 到一定程度时甚至瘫痪整个邮件系统和网络。有关人士还指出,目前免费邮箱的使用由于垃圾邮件的泛滥 正面临崩溃的边缘,这必将打击人们使用电子邮件的积极性,阻碍电子邮件应用的发展。 2基于数据挖掘的垃圾邮件检测技术 目前,解决垃圾邮件问题的产品主要有两类:防火墙(包括杀毒软件)和实时入侵检测系统。 防火墙的应用部署晟为普遍,产品也比较多,技术较为成熟。但它的一个致命的局限性就是它只能对 已知的攻击和病毒进行防御,必须定时的接受升级或更新检测规则才能发现和防御新型攻击和病毒的威胁。 现代入侵检测系统,结合了数据挖掘、迷糊理论等学科知识,已经可以通过机器学习,不断产生有用 的新规则用于检测中,能有效的抵御垃圾邮件的干扰,并具有能发现新病毒的能力。 本文主要讨论采用数据挖掘方法进行垃圾邮件的检测技术,并重点对采用贝叶斯算法时的数据预处理 +基金壹助:本课题受国家863项目《面向全国组织、干部系统的应用集成中间件平台及其应用》基金资助.编 号:2004AAll3040. 作者筒介:许小林.男.重庆市南川人.北京航空航天大学计算机学院,硕士研究生,研究方向为计算机信息安全、数据挖掘: 唐文忠,男,河北省涿鹿人,副教授,北京航空航天大学计算机学院,研究方向为电子政务、信息安全等。 156 计算机技术与应用进展·2006 rTiii覃囊i 技术进行深入的分析。 数据挖掘的~‘种流行定义是从数据中抽取出大量隐藏和潜在的有价值的信息。也有人谈到数据挖掘是 一项综合学科,它使用统计、基于数据技术、模式识别,机器学习对大量数据信息进行分析,发现以前未 发现的可疑关系,以提供有实用价值的信息。 其中研究较为成熟的数据挖掘模型有多种,其中比较典型的有关联模型、序列模型、分类模型等。关 联分析即利用关联规则进行数据挖掘,而关联规则是描述事物之间同时出现的规律的知识模式。序列分析 和关联分析相似,它把数据之间的关联性与时间联系起来,为了发现序列模式,不仅需要知道事件是否发 生,而且需要确定事件发生的时间。分类分析就是通过分析数据库中的数据,为每个类别做出准确描述和 建立分析模型或挖掘出分类规则,能够把数据集的数据映射到某个给定的类上。 本人正在设计的垃圾邮件检测系统,采用数据挖掘分类模型中比较经典的贝叶斯算

文档评论(0)

1亿VIP精品文档

相关文档