协同分类器在垃圾邮件过滤中的应用.ppt

协同分类器在垃圾邮件过滤中的应用.ppt

协同分类器在垃圾邮件过滤中的应用 网络中心研究生 高庆国 2008年6月18日 主要内容 1 概述 2 SVM和KNN 3 协同的原理 4 总结 概述 邮件过滤自身的特性 1 在线性 2 结构性 3 客户性 4 非均匀性 垃圾邮件过滤技术有多种,到目前为止,基于邮件内容的过滤是其中效果最好的。基于内容的过滤就是利用文本分类算法来对邮件进行过滤,可以将邮件分为两类文本:正常邮件和垃圾邮件,将邮件内容映射为向量空间中的向量,通过计算邮件间的相似度来判断是否为垃圾邮件。 基于内容的邮件过滤 1 基于规则的过滤方法 Ripper、决策树、Boosting决策树、粗糙集等方法 2 基于机器学习的方法 Bayes、KNN、SVM等方法 基于规则的方法具有“计划赶不上变化”的缺点 基于机器学习的方法具有“与时俱进”的优点 SVM 支持向量机的基本思想可概括为:首先通过非线性变换将样本空间变换到一个高维空间,然后在新空间中求取最优线性分类面,此非线性变换通过定义适当的核函数实现。 支持向量机具有以下优点: 1可以解决小样本情况下的机器学习问题 2可以提高泛化性能 3可以解决高维问题 4可以解决非线性问题 5可以避免神经网络结构选择和局部极小点问题?? SVM性能的参数: SVM的性能受到核函数形式及其参数、问题本身的复杂程度、分类面附

文档评论(0)

1亿VIP精品文档

相关文档