- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于粗糙集的增量式垃圾邮件过滤技巧研究
基于粗糙集的增量式垃圾邮件过滤方法研究-电气论文
基于粗糙集的增量式垃圾邮件过滤方法研究
徐丹,韩艳杰,寇曼曼
(河南省地震局,河南郑州450016)
摘要:在粗糙集理论基础上,提出一种增量式的垃圾邮件过滤方法。该方法将邮件样本的局部最小确定性作为阈值来控制规则产生,并在邮件识别过滤过程中增加了反馈环节,将错判和未识别样本作为增量样本进行再学习,动态调整邮件规则的置信度。根据阈值选择可信度较高的规则进行更新,从而减少了规则的个数,提高了样本的正确识别率,最后用实验证明了该方法的有效性。
关键词 :垃圾邮件过滤;粗糙集理论;增量学习;ILRS算法
中图分类号:TN911?34 文献标识码:A 文章编号:1004?373X(2015)14?0024?04
收稿日期:2015?02?25
基金项目:国家自然科学基金
0 引言
随着Internet技术的快速发展,电子邮件在人们的生活中扮演着越来越重要的角色。人们之间大量的交流都通过电子邮件来进行,但是垃圾邮件的日益增多也成为困扰人们日常工作生活的一个难题,电子邮件过滤技术由此产生并成为阻止垃圾邮件的重要手段之一。
有很多学者对电子邮件过滤方法进行了研究,常见的有以下三种:
(1)基于黑名单?白名单的识别方法,即利用邮件地址、IP地址或域名的属性进行的邮件识别,这种方法的正确识别率低,容易造成误判,典型的应用有结合DNS(Domain Name Server)的RBL(Real ? time BlockList)识别[1]等。
(2)基于数据挖掘技术,利用文本分类和统计算法的识别,比如Bayes[2]、SVM[3]、人工神经网络[4]等,识别准确率较高,但速度慢,不适用于邮件规模较大的情况;同时,它们大都没有考虑交互的问题,对错判邮件的处理不够完善。
(3)基于规则匹配的识别方法。文献[5]结合粗糙集理论的数据分析技术研究了邮件过滤系统的建模和特征发现等问题,并用经验数据进行实验,得到了较好的结果。刘洋等基于粗糙集理论将邮件向量同规则向量统一定义,有选择的进行二次过滤,得到了80%左右的正确率[6]。
以上所介绍的方法都只能静态的对电子邮件进行分类过滤,如何对邮件信息进行动态的增量式学习将是未来研究的热点。文献[7]在扩展决策矩阵的定义的基础上提出一种能够增量的从样本数据中提取确定性和可能性规则的方法,该方法对缺乏领域知识时的规则获取有重要意义;文献[8]首先根据粗糙集方法提取规则,然后在自定义的归纳分配表上利用概率论的思想提取可以覆盖新样本的规则强度高的规则,并用实验证明了它的有效性,如何将连续属性进一步离散化是该方法的下一步需要考虑的问题之一。文献[9]提出了一种基于概率粗糙集模型的增量式规则学习算法,该算法能够有效地从不一致和含有噪声的决策表中提取带有确定性因子和支持数的决策规则,提取的规则具有很好的抗噪声能力,但是在数据量较大的情况下,该方法未能得到有效验证。
本文提出的增量式电子邮件过滤方法是在基于粗糙集的电子邮件过滤模型的基础上增加反馈环节,将识别过程中错误识别和未识别的邮件信息作为新增的矛盾样本进行再学习,通过邮件决策信息表的局部最小确定性与矛盾规则和样本可信度的比较,对规则集进行更新,有效地提高了邮件的正确识别率。本文介绍了基于粗糙集理论的邮件分类模型的相关基本概念,在此基础上提出了一种基于粗糙集的增量式电子邮件过滤方法,并利用UCI中的Spam Database数据集对该方法进行了实验,并分别与增量前的学习效果和ID4 算法进行比较,从而验证了该方法的有效性。
1 相关基本概念
定义1(电子邮件决策表信息系统):电子邮件决策表信息系统是一个四元组S = {U,R = C ? D,V,f }。其中:U 是邮件的集合;R 为属性的集合;C 为邮件条件属性的集合;D 表示决策属性集合;V 是属性值的集合;f是信息函数,它指定U 中每个对象x 的属性值[10]。
2 基于粗糙集的增量式邮件过滤方法
为了更有效地获得邮件规则,需要将学习识别后反馈的错判和未识别信息作为新样本进行再训练,原始的非增量式学习方法是将错判和未识别样本放入原始信息决策表,进行重新训练。这种方法比较简单,但在样本集非常大的时候,重新训练的周期较长,且规则更新速度非常慢,影响学习的效率,不能满足实时邮件过滤要求。本文提出的增量式邮件过滤方法针对错判和未识别样本的情况,能从矛盾的邮件决策信息表中提取带有置信度的决策规则,从而实现邮件规则集的动态更新。
您可能关注的文档
- 基于有限元技巧的汽车驱动桥壳分析.doc
- 基于模糊核匹配追寻的特点模式识别.doc
- 基于混合小波粒子群优化算法的自适应模糊神经网络技巧的短期电价预测.docx
- 基于游客消费行为特点研究的温泉旅游市场提升——以贵阳市乌当区温泉城为例.doc
- 基于灰色模型理论改进的教师评教技巧.doc
- 基于秸秆全量还田的不同耕作技巧下稻麦生产的碳效率及收益评估.doc
- 基于行为特点和需求分析的高层次人才激励机制研究.doc
- 基于蕴含关系的场景测试法路径优化技巧研究.doc
- 基于表面倾角变化的滑坡临灾预警技巧研究.doc
- 基于马尔科夫链的人口高密度地区强震人员伤亡预测技巧.doc
- 2025年新人教版英语七年级上册全册课件 Starter Unit 1 第一课时 Section A 1a-2d.pptx
- 2025年新人教版英语三年级上册 U1 B Start to read& C Project 教学课件.pptx
- 2025年新人教版英语七年级上册全册课件 Unit 5 第一课时 Section A 1a-pronunciation.pptx
- 2025年新人教版英语七年级上册全册课件 Unit 2 第三课时 Section A Grammar Focus.pptx
- 2025年新人教版英语三年级上册 U6 A talk 教学课件.pptx
- 2025年新人教版英语三年级上册 U5 A learn 教学课件.pptx
- 2025年新人教版英语七年级上册全册课件 Unit 2 第一课时 Section A 1a- pronunciation.pptx
- 2025年新人教版英语七年级上册全册课件 Unit 4 第五课时 Section B 2a-2b.pptx
- 2025年新人教版英语三年级上册 U6 B learn 教学课件.ppt
- 2025年新人教版英语三年级上册 Unit 2 Different familiesPart C 第8课时 Reading time 教学课件.pptx
文档评论(0)