基于特征域词频邮过滤方法的研究.ppt

下载文档

0
0
约2.87千字
约 19页
2017-09-13 发布于江苏
举报
版权申诉
保障服务

基于特征域词频邮过滤方法的研究.ppt

1、本文档共19页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于特征域词频邮过滤方法的研究

基于特征域词频的邮件过滤方法的研究山东经济学院计算机刘慧摘要：本文提出了根据邮件特征域信息和特征词频进行垃圾邮件过滤的新方法。介绍在该方法中的文本特征选取、特征词典构造以及基于TF的权值计算等相关技术，以及改进的文本相似度计算概率模型。实验表明该方法在邮件过滤的查全率、查准率等几个性能评价指标上，比传统的Rocchio方法有了明显改善。目前垃圾邮件的泛滥已给有限的网络带宽及用户宝贵的时间和精力造成了极大的浪费。据统计，2005年垃圾邮件给全球的生产力造成的损失及其他费用达到500亿美元。中国互联网络信息中心(CNNIC) 的报告也表明，上网用户平均收到的垃圾邮件已占到邮件总数的57.7%。定义1：有一些词在邮件中被使用时，被不同的作者认为具有更丰富的主题或内容表现力，经常在一些特定的域中出现，这样的词称作特征词(Character Term)，相应的域被称为特征域(Character Field)。类间相关的评估函数，考虑词条t(Token)在已得到的切分文档集中的出现情况。规定词条t和类别c共现的次数为A，t在非c类别的文档中出现的次数为B，c类别中不包括t的文档数为C，非c类别中不包含t的文档数记为D，语料集合中的所有文档数记为N。基于上面的假设，可以给出评估函数的定义式： x2(t,c)综合比较了词条对某一个类别的贡献和对其余类别的贡献。其中，如果AD-CB0，说明该词和类别正相关，即词条出现说明某个类别也可能出现；反之，如果AD-CB0，说明该词和类别负相关，即词条出现说明某个类别很可能不会出现。因此在特征选择时，要选择x2(t,c)值高并且同时满足AD-CB0的词条作为特征词，并按照x2(t,c)值将特征词从高到低进行排序。基于训练语料的数据准备利用概率模型计算特征词ti在相关邮件集合D中出现的概率P(ti|D)，以及ti在非相关邮件集合中出现的概率：其中Dr表示用户判断相关的检出的相关文档集合，它由包含特征词ti的邮件集组成。Dr,i表示Dr的一个子集。ni表示整个邮件集合中包含ti的邮件数量。基于训练语料的数据准备特征词与垃圾邮件文本之间的相似度关系可以分解为待过滤的邮件与集合中的每一个特征词之间的相似度之和：其中T是特征词典，t为某一特征词。对于一次相似度计算来说，λt=1；对于相关反馈得到的扩展相似度计算，则可以对原特征词和新扩展出来的特征词给以不同的权值。引入邮件特征域的邮件文本权值计算邮件本身就是网页，网页作为文档必然具有HTML标记信息，因此具有利用结构性的特征标记来表示不同部分的特点，比如标题(title)、强调性的粗体(strong)、斜体(italic)文本、超链接(hyperlink)等。就发件者而言，这样的部分在邮件内容的表现力方面往往要比正文内容更重要，我们将此称为邮件特征域(E-mail character field, 简称Ecf)。因此本文采用了将已得到的特征词典与特征域中所提取的特征词进行对比分析的方法，根据特征域含有垃圾邮件信息的丰富程度，确定邮件的性质。引入邮件特征域的邮件文本权值计算特征词集合上垃圾邮件相似度计算式：其中λ是邮件正文内容的影响因子，当λ=0时，特征词的权重因子完全由该项的特征信息权重因子决定；而λ=1时，这个公式就退化为传统的概率模型。实验数据与条件数据集选用日常收集得到的1843封垃圾邮件作为训练语料，提取垃圾邮件特征词，邮件平均大小为3.5kB。利用类间相关的评估函数，得到广告、政治和色情三类特征词典，特征词数目分别为1011、553和279个，且特征词按照评估函数值x2(t,c)的大小从高到低进行排序。结果分析将Rocchio方法与提出的基于邮件特征域词频TF的邮件过滤方法进行比较，考察邮件正文部分影响因子λ取值的变化，会对实验结果产生的影响。当λ=1时，表示不考虑特征域的特殊作用，整个文档内容都作为普通正文。当λ的取值介于0.2到0.4之间时，其性能最优，说明邮件特征域使用的标题、粗体字和斜体字等确实具有丰富的主体表达力。建立有效的垃圾邮件过滤系统是目前机器学习和信息检索领域研究的热点。本文通过分析中文邮件的特点，提出了邮件特征域和特征词的概念，并将特征词权值计算应用到传统的相似度计算概率模型中，通过实验表明我们获得了系统过滤性能的显著改善，并且能够将系统性能维持在一个相对稳定的水平上。基于特征域词频的邮件过滤方法的研究论文内容：特征词典的构建 2 邮件文本权值计算方法 3 实验与结果分析 4 总结与展望 5 前言 1 基于特征域词频的邮件过滤方法的研究基于特征域词频的邮件过滤方法的研究前言：基于文本分类的过滤方法，如