- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于贝叶斯算法的垃圾邮件检测中数据预处理技术的研究 155
基于贝叶斯算法的垃圾邮件检测中数据预处理技术的研究4
许小林唐文忠
北京航空航天大学计算机学院北京100083
摘要:本文针对目前作者所参与的课题,对基于最小风险贝叶斯算法的垃圾邮件检测系统中所使
用的数据预处理技术进行了说明,并且通过举例的方式直观形象的进行了描述。文章首先介绍了垃圾
邮件检测的发展状况,然后提出基于数据挖掘的检测方法;随后本文比较概括的介绍了基于皿叶斯算
法的垃圾邮件检测系统的模块设计;作为本文的核心,接下来文章仔细介绍了数据预处理模块的实现
方法,并用例子进行了说明;最后是本文的简要总结。
关麓词:贝叶斯垃圾邮件智能检测数据挖掘数据预处理
1引 言
每天。数以亿计的电子邮件通过Intemet传递各种信息。由于电子邮件的广泛应用,电子邮件本身的
一些应用缺陷日益暴露,它所带来的一系列问题目前已经成为计算机应用领域的一个研究热点,涉及多个
研究方向。
对于电子邮件应用目前面临的问题,可以主要归结为两类问题:附件病毒,以及垃圾邮件。对于电子
邮件附件所携带的病毒程序,大家并不陌生,它和其他应用系统中的病毒并无区别,只是转播的途径依赖
邮件的传输。国外有关机构经过统计还发现,电子邮件也是计算机病毒的主要传播载体,历年来世界上著
名的病毒爆发事件中,在80%以上的事件中电子邮件充当了传播病毒的罪魁祸首”J。
而另一类困扰电子邮件应用多年的问题是垃圾邮件的泛滥,这是当前影响电子邮件进一步发展的最主
要障碍。大量垃圾邮件的出现不但浪费用户的时间和精力去删除,而且还造成网络资源的浪费,当数量达
到一定程度时甚至瘫痪整个邮件系统和网络。有关人士还指出,目前免费邮箱的使用由于垃圾邮件的泛滥
正面临崩溃的边缘,这必将打击人们使用电子邮件的积极性,阻碍电子邮件应用的发展。
2基于数据挖掘的垃圾邮件检测技术
目前,解决垃圾邮件问题的产品主要有两类:防火墙(包括杀毒软件)和实时入侵检测系统。
防火墙的应用部署晟为普遍,产品也比较多,技术较为成熟。但它的一个致命的局限性就是它只能对
已知的攻击和病毒进行防御,必须定时的接受升级或更新检测规则才能发现和防御新型攻击和病毒的威胁。
现代入侵检测系统,结合了数据挖掘、迷糊理论等学科知识,已经可以通过机器学习,不断产生有用
的新规则用于检测中,能有效的抵御垃圾邮件的干扰,并具有能发现新病毒的能力。
本文主要讨论采用数据挖掘方法进行垃圾邮件的检测技术,并重点对采用贝叶斯算法时的数据预处理
+基金壹助:本课题受国家863项目《面向全国组织、干部系统的应用集成中间件平台及其应用》基金资助.编
号:2004AAll3040.
作者筒介:许小林.男.重庆市南川人.北京航空航天大学计算机学院,硕士研究生,研究方向为计算机信息安全、数据挖掘:
唐文忠,男,河北省涿鹿人,副教授,北京航空航天大学计算机学院,研究方向为电子政务、信息安全等。
156 计算机技术与应用进展·2006
rTiii覃囊i
技术进行深入的分析。
数据挖掘的~‘种流行定义是从数据中抽取出大量隐藏和潜在的有价值的信息。也有人谈到数据挖掘是
一项综合学科,它使用统计、基于数据技术、模式识别,机器学习对大量数据信息进行分析,发现以前未
发现的可疑关系,以提供有实用价值的信息。
其中研究较为成熟的数据挖掘模型有多种,其中比较典型的有关联模型、序列模型、分类模型等。关
联分析即利用关联规则进行数据挖掘,而关联规则是描述事物之间同时出现的规律的知识模式。序列分析
和关联分析相似,它把数据之间的关联性与时间联系起来,为了发现序列模式,不仅需要知道事件是否发
生,而且需要确定事件发生的时间。分类分析就是通过分析数据库中的数据,为每个类别做出准确描述和
建立分析模型或挖掘出分类规则,能够把数据集的数据映射到某个给定的类上。
本人正在设计的垃圾邮件检测系统,采用数据挖掘分类模型中比较经典的贝叶斯算法
您可能关注的文档
- 适于影像学的探究的严重烧伤早期脑水肿模型的建立.pdf
- 能见度不良时船舶航行安全的探究.pdf
- 基于增量法对菜园坝大桥Y构进行的应力分析与研究.pdf
- 中药“肠宁”对大肠杆菌不同菌株的抑菌与PAE研究.pdf
- 氧化物催化电弧法制备洋葱状富勒烯地研究.pdf
- 用于建筑风道的光催化空气净化的探究.pdf
- 绵羊同期发情技术在生产中应用地研究.pdf
- 中西医结合治疗的探究血液病的思考.pdf
- 黏土固化粉煤灰处理含氟水地研究.pdf
- 医用回旋加速器H-%27--离子源的探究.pdf
- 2025年中山市沙溪镇人民政府所属事业单位招聘11人笔试备考题库及参考答案详解一套.docx
- 2025年中山市横栏镇人民政府所属事业单位第二期招聘笔试高频难、易错点备考题库及参考答案详解一套.docx
- 2025年中山市横栏镇人民政府所属事业单位第二期招聘笔试高频难、易错点备考题库含答案详解.docx
- 2025年中山市阜沙镇人民政府所属事业单位招聘笔试高频难、易错点备考题库及完整答案详解1套.docx
- 2025年中山市阜沙镇人民政府所属事业单位招聘笔试高频难、易错点备考题库参考答案详解.docx
- 2025年中山市阜沙镇人民政府所属事业单位招聘笔试备考题库附答案详解.docx
- 2025年中山市阜沙镇人民政府所属事业单位招聘笔试高频难、易错点备考题库附答案详解.docx
- 2025年中山市阜沙镇人民政府所属事业单位招聘笔试备考题库附答案详解.docx
- 2025年中山市阜沙镇人民政府所属事业单位招聘笔试备考题库及答案详解一套.docx
- 2025年中山市阜沙镇人民政府所属事业单位招聘笔试备考题库及完整答案详解1套.docx
文档评论(0)