- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于粗糙集增量式垃圾邮件过滤方法研究
基于粗糙集增量式垃圾邮件过滤方法研究
摘 要: 在粗糙集理论基础上,提出一种增量式的垃圾邮件过滤方法。该方法将邮件样本的局部最小确定性作为阈值来控制规则产生,并在邮件识别过滤过程中增加了反馈环节,将错判和未识别样本作为增量样本进行再学习,动态调整邮件规则的置信度。根据阈值选择可信度较高的规则进行更新,从而减少了规则的个数,提高了样本的正确识别率,最后用实验证明了该方法的有效性。
关键词: 垃圾邮件过滤; 粗糙集理论; 增量学习; ILRS算法
中图分类号: TN911?34 文献标识码: A 文章编号: 1004?373X(2015)14?0024?04
0 引 言
随着Internet技术的快速发展,电子邮件在人们的生活中扮演着越来越重要的角色。人们之间大量的交流都通过电子邮件来进行,但是垃圾邮件的日益增多也成为困扰人们日常工作生活的一个难题,电子邮件过滤技术由此产生并成为阻止垃圾邮件的重要手段之一。有很多学者对电子邮件过滤方法进行了研究,常见的有以下三种:
(1) 基于黑名单?白名单的识别方法,即利用邮件地址、IP地址或域名的属性进行的邮件识别,这种方法的正确识别率低,容易造成误判,典型的应用有结合DNS(Domain Name Server)的RBL(Real?time Block List)识别[1]等。
(2) 基于数据挖掘技术,利用文本分类和统计算法的识别,比如Bayes[2]、SVM[3]、人工神经网络[4]等,识别准确率较高,但速度慢,不适用于邮件规模较大的情况;同时,它们大都没有考虑交互的问题,对错判邮件的处理不够完善。
(3) 基于规则匹配的识别方法。文献[5]结合粗糙集理论的数据分析技术研究了邮件过滤系统的建模和特征发现等问题,并用经验数据进行实验,得到了较好的结果。刘洋等基于粗糙集理论将邮件向量同规则向量统一定义,有选择的进行二次过滤,得到了80%左右的正确率[6]。
以上所介绍的方法都只能静态的对电子邮件进行分类过滤,如何对邮件信息进行动态的增量式学习将是未来研究的热点。文献[7]在扩展决策矩阵的定义的基础上提出一种能够增量的从样本数据中提取确定性和可能性规则的方法,该方法对缺乏领域知识时的规则获取有重要意义;文献[8]首先根据粗糙集方法提取规则,然后在自定义的归纳分配表上利用概率论的思想提取可以覆盖新样本的规则强度高的规则,并用实验证明了它的有效性,如何将连续属性进一步离散化是该方法的下一步需要考虑的问题之一。文献[9]提出了一种基于概率粗糙集模型的增量式规则学习算法,该算法能够有效地从不一致和含有噪声的决策表中提取带有确定性因子和支持数的决策规则,提取的规则具有很好的抗噪声能力,但是在数据量较大的情况下,该方法未能得到有效验证。
本文提出的增量式电子邮件过滤方法是在基于粗糙集的电子邮件过滤模型的基础上增加反馈环节,将识别过程中错误识别和未识别的邮件信息作为新增的矛盾样本进行再学习,通过邮件决策信息表的局部最小确定性与矛盾规则和样本可信度的比较,对规则集进行更新,有效地提高了邮件的正确识别率。本文介绍了基于粗糙集理论的邮件分类模型的相关基本概念,在此基础上提出了一种基于粗糙集的增量式电子邮件过滤方法,并利用UCI中的Spam Database数据集对该方法进行了实验,并分别与增量前的学习效果和ID4算法进行比较,从而验证了该方法的有效性。
1 相关基本概念
定义1(电子邮件决策表信息系统):电子邮件决策表信息系统是一个四元组[S=U,R=C?D,V,f]。其中:[U]是邮件的集合;[R]为属性的集合;[C]为邮件条件属性的集合;[D]表示决策属性集合;[V]是属性值的集合;[f]是信息函数,它指定[U]中每个对象[x]的属性值[10]。
定义2(不分明关系):假设属性集[P∈R],对象[X,Y∈U],对于每个[Q∈P],当且仅当[f(X,a)=f(Y,a)],[X]和[Y]是不可分辨的,即:[IND(P)={(X,Y)∈][U:?a∈P,f(X,a)=f(Y,a)}。]显然[IND(P)]是一个等价关系。这样,属性集P可以认为是用等价关系(在该属性集上的取值相等)表示的一个知识的名称[10]。
定义3(置信度):对于邮件信息决策表[S=U,R=C?D,V,f],规则[A→B]的置信度为:[α=X?YX],则规则可表示为如下形式:[A→Bα],其中:集合[X]是条件属性值满足公式[A]的样本集合,集合[Y]是满足决策属性值满足公式[B]的样本集合[10]。
定义 4(条件分类对决策分类的确定性程度):设决策表为[S=U,A,V,f],[A=C?D] ,[C]为条件属性集,[D]为决策属性集,[Ei∈UINDC,
文档评论(0)