- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中国科技论文在线
垃圾邮件的概念漂移及过滤技术研究
师文轩,殷爱茹
(南开大学软件学院,天津 300071)
摘要:垃圾邮件与垃圾邮件过滤构成了相互博弈的生态系统。一个长期有效的垃圾邮件过滤技术必须能够自适应的应对垃圾邮件随时间和用户偏好而产生的各种变化,这种变化在机器学习领域中被称为概念漂移。提出双级别的概念漂移检测算法,监视已有的垃圾邮件过滤模型在对邮件分类时是否产生了持续的分类错误,进而对概念漂移进行识别。针对由用户偏好
引起的垃圾邮件概念范畴变化,基于本体论提出邮件数字指纹与概念子类别之间的关联强度和隶属度的算法。通过对比实验,验证了所提方法在垃圾邮件概念漂移问题上的有效性。关键词:机器学习;垃圾邮件过滤;概念漂移;数字指纹
中图分类号:TP391.1
Research on concept drift and filtering in spam ecosystem
Shi Wenxuan, Yin Airu
(College of Software, Nankai University, Tianjin 300071)
Abstract: Spam and spam filtering constitutes a game spam ecosystems. A long-term effective spam filtering technology should self-adaptive response to kinds of spam variations generated
with time and user preferences, and which is known as concept drift in machine learning area. The dual-level concept drift detection algorithm was proposed to discern concept drift in which sustained misclassification was monitored when email classification. Regarding the spam concept scope changes caused by user preferences, the association and subjection strength algorithm was proposed between email fingerprints and concept subcategories based ontology. The proposed
method was proved effective to handle the concept drift problem in spam filtering by comparing experiment.
Key words: machine learning; spam filtering; concept drift; fingerprinting
引言
垃圾邮件与垃圾邮件过滤构成了相互博弈的生态系统(Spam Ecosystem)。一方面,为了避开垃圾邮件过滤技术的识别和阻隔,垃圾邮件发送者会不断的变化垃圾邮件的格式、内容、发送方式等,从而使基于历史垃圾邮件的特征建立的过滤技术失效。另一方面,随着盈
利目的或者推广意图的不断变化,垃圾邮件发送者会随着时间推移和根据不同的用户群体调整所发的垃圾邮件的内容、格式或发送方式等。
垃圾邮件的特征随时间推移而不断变化,必然会导致垃圾邮件的概念范畴不断的发生变化,另一方面,对垃圾邮件的定义会随着用户的偏好而有所不同,也会导致垃圾邮件的概念
[1, 2]
。
范畴产生变化,这两种情况被称为垃圾邮件过滤领域中的概念漂移问题(Concept Drift)
垃圾邮件概念范畴的变化可能是随时间推移而产生的邮件特征和样本分布的变化,也可能是随用户关注而产生的偏好变化。因此,对于有效的垃圾邮件过滤技术来说,需要找到检测概
念漂移问题的方法,进而提出针对原有垃圾邮件过滤技术的误识率不断增加问题的解决策略。
提出双级别的概念漂移检测算法,根据概念漂移的程度,针对造成误分类的数字指纹设定不同的权重惩罚参数;对于造成垃圾邮件误识的数字指纹,降低其指示器分值,对于生成
基金项目:高等学校博士学科点专项科研基金资助课题(20130031120042)
作者简介:师文轩(1977-),男,讲师,数据挖掘与机器学习
- 1 -
中国科技论文在线
日期较老、权重值一直很小的数字指纹,采用渐进遗忘机制将其从知识库中删除。
1 概念漂移
垃圾邮件的发送一般都携带着一定的商业或政治意图,而
原创力文档


文档评论(0)