- 1、本文档共16页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于TFIDF垃圾邮件过滤特征选择改进算法
基于TFIDF垃圾邮件过滤特征选择改进算法
摘 要:随着电子邮件的普及与应用,垃圾邮件的泛滥也越来越受到人们的关注。而如何进行邮件特征选择,是邮件分类中的重要问题。在介绍词频和倒文档频度的基础上,对几种常用的特征选择算法进行了分析和比较,针对现有特征选择算法过于机械的缺点,将关键字权重引入到邮件分类中,提出了一种基于关键词权重的TF*IDF特征选择改进算法,并进行了实验验证。实验结果表明,采用该算法改进后的贝叶斯过滤器具有更好的过滤效果。
关键词:垃圾邮件;过滤器;贝叶斯;特征选择;TF*IDF
中图分类号:TP393.098文献标志码:A
文章编号:1001-3695(2009)06-2165-03
doi:10.3969/j.issn.1001-3695.2009.06.050
Improved feature selection algorithm in spam filtering based on TF*IDF
CHEN Qi, WU Zhao-hui, YAO Fang, SONG Xiu-rong, ZHANG Fu-zhi
(College of Information Science Engineering, Yanshan University, Qinhuangdao Hebei 066004, China)
Abstract:With the development of network and computer, more and more spam e-mails affect our lives. This paper firstly introduced the current popular feature selection methods based on term frequency and inversed document frequency. Then it compared and analyzed the various feature extraction algorithms, and introduced a new extracted feature algorithm by using the advanced TF*IDF. Finally it completed the experimental verification with the PU1 corpus. The experiment results demonstrate that the advanced naive Bayes filter has better performance.
Key words:spam;filtering;Bayes;feature selection;TF*IDF
基于内容的垃圾邮件过滤中,原始提取得到的特征词库十分庞大,向量维数也十分惊人。在这些特征词中,有些对区分正常邮件和垃圾邮件所起到的作用不但非常小,有时还会引起噪声,导致过度拟合。特征选择就是为了降低向量空间的维数,提高分类效果,减小计算复杂度,从而努力移除原始特征中不带分类信息或带信息比较少的词。常用的特征选择方法有:文档频度、信息增益、期望交叉熵、互信息、 χ??2分布等[1]。本文主要介绍向量空间模型中广泛使用的TF*IDF公式,并将其用于垃圾邮件文本特征项的选择。TF指单词在文本中出现的次数,IDF为逆文本频数也叫倒文档频度[2]。??
1 TF*IDF算法??
1.1 算法相关概念??
在介绍TF*IDF(term frequency*inverse document frequency)算法之前,首先引入TF和IDF两个概念。??
1)词频(TF) 即一个特征项在某一文档中出现的次数,反映了某一个特征项对该文本的重要性,其定义如下所示:??
TFij=freqij=特征词ti在文档dj中的频率??
可利用对数降低词频对TF取值的影响,从而减少了少数高频词对特征权重计算的影响,如下所示:??
TFij=log(freqij)+1??
2)倒文档频度(IDF) 这一分量反映了某一特征项区别于其他文档的程度,是一个关键词在整个数据全局中重要性的全局性统计特征,称为倒文档频度。如果一个词在整个数据全集中出现的频度很小,则它应该是反映包含该类词的文档内容的重要词汇。因此,一个关键词的权重应该与该词所在的文档的总数成反比或近似反比的关系。
IDFi=log(n/ni)=log(全集中文档的总数/含关键词i的文档总数)
其中:n为全部训练样本数,ni
您可能关注的文档
- 基于SWOT分析农村女性劳动力就地非农转移.doc
- 基于SWOT分析农业院校实验室人力资源管理对策研究.doc
- 基于SWOT分析农村家电营销策略研究.doc
- 基于SWOT分析冷链物流现状及对策研究.doc
- 基于SWOT分析冠骏汽车战略选择研究.doc
- 基于SWOT分析切尔诺贝利旅游资源评价与发展模式优化.doc
- 基于SWOT分析剑河县旅游产业发展分析.doc
- 基于SWOT分析厦门现代物流发展策略研究.doc
- 对化学实验教学中师生进行有效交流思考.doc
- 基于SWOT分析古村落摄影旅游开发初探.doc
- 2025年高考第三次模拟考试卷:生物(海南卷)(考试版).docx
- 构建新闻业卓越文化-塑造并维持积极的企业氛围.pptx
- 网络安全事件应急响应与处置.pptx
- 乳饮创新与品牌驱动-探索行业发展新策略.pptx
- 2025年高考第三次模拟考试卷:生物(黑吉辽蒙卷)(解析版).docx
- 2025年高考第三次模拟考试卷:生物(黑吉辽蒙卷)(考试版).docx
- 2024年03月湖南省武冈市事业单位2024年引进16名人才笔试历年典型考题(历年真题考点)解题思路附带答案详解.doc
- 桩板墙施工培训课件视频.pptx
- 2024年03月湖南省永州市零陵区2024年部分区直单位公开选调7名工作人员笔试历年典型考题(历年真题考点)解题思路附带答案详解.doc
- 2025年高考第三次模拟考试卷:生物(湖北卷)(解析版).docx
文档评论(0)