基于TFIDF垃圾邮件过滤特征选择改进算法.doc

下载文档 降价啦

27
0
约7.48千字
约 16页
2018-08-28 发布于福建
举报
版权申诉
保障服务

基于TFIDF垃圾邮件过滤特征选择改进算法.doc

1、本文档共16页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于TFIDF垃圾邮件过滤特征选择改进算法

基于TFIDF垃圾邮件过滤特征选择改进算法　　摘要：随着电子邮件的普及与应用，垃圾邮件的泛滥也越来越受到人们的关注。而如何进行邮件特征选择，是邮件分类中的重要问题。在介绍词频和倒文档频度的基础上，对几种常用的特征选择算法进行了分析和比较，针对现有特征选择算法过于机械的缺点，将关键字权重引入到邮件分类中，提出了一种基于关键词权重的TF*IDF特征选择改进算法，并进行了实验验证。实验结果表明，采用该算法改进后的贝叶斯过滤器具有更好的过滤效果。　　关键词：垃圾邮件；过滤器；贝叶斯；特征选择；TF*IDF 　　中图分类号：TP393.098文献标志码：A 　　文章编号：1001-3695(2009)06-2165-03 　　doi:10.3969/j.issn.1001-3695.2009.06.050 　　　　Improved feature selection algorithm in spam filtering based on TF*IDF 　　CHEN Qi, WU Zhao-hui, YAO Fang, SONG Xiu-rong, ZHANG Fu-zhi 　　(College of Information Science Engineering, Yanshan University, Qinhuangdao Hebei 066004， China) 　　Abstract:With the development of network and computer, more and more spam e-mails affect our lives. This paper firstly introduced the current popular feature selection methods based on term frequency and inversed document frequency. Then it compared and analyzed the various feature extraction algorithms, and introduced a new extracted feature algorithm by using the advanced TF*IDF. Finally it completed the experimental verification with the PU1 corpus. The experiment results demonstrate that the advanced naive Bayes filter has better performance. 　　Key words:spam；filtering；Bayes；feature selection；TF*IDF 　　　　基于内容的垃圾邮件过滤中，原始提取得到的特征词库十分庞大，向量维数也十分惊人。在这些特征词中，有些对区分正常邮件和垃圾邮件所起到的作用不但非常小，有时还会引起噪声，导致过度拟合。特征选择就是为了降低向量空间的维数，提高分类效果，减小计算复杂度，从而努力移除原始特征中不带分类信息或带信息比较少的词。常用的特征选择方法有：文档频度、信息增益、期望交叉熵、互信息、 χ??2分布等[1]。本文主要介绍向量空间模型中广泛使用的TF*IDF公式，并将其用于垃圾邮件文本特征项的选择。TF指单词在文本中出现的次数，IDF为逆文本频数也叫倒文档频度[2]。?? 　　　　1 TF*IDF算法?? 　　　　1.1 算法相关概念?? 　　在介绍TF*IDF(term frequency*inverse document frequency)算法之前，首先引入TF和IDF两个概念。?? 　　1)词频(TF) 即一个特征项在某一文档中出现的次数，反映了某一个特征项对该文本的重要性，其定义如下所示：?? 　　TFij=freqij=特征词ti在文档dj中的频率?? 　　可利用对数降低词频对TF取值的影响，从而减少了少数高频词对特征权重计算的影响，如下所示：?? 　　TFij=log(freqij)+1?? 　　2)倒文档频度(IDF) 这一分量反映了某一特征项区别于其他文档的程度，是一个关键词在整个数据全局中重要性的全局性统计特征，称为倒文档频度。如果一个词在整个数据全集中出现的频度很小，则它应该是反映包含该类词的文档内容的重要词汇。因此，一个关键词的权重应该与该词所在的文档的总数成反比或近似反比的关系。　　IDFi=log(n/ni)=log(全集中文档的总数/含关键词i的文档总数) 　　其中：n为全部训练样本数，ni