- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于内容的垃圾过滤问题研究
1 实现垃圾电话的过滤
随着网络的发展,电子邮件作为一种快速和经济的通信形式而被广泛使用。邮件是当前Internet中最多的两项应用之一。 当前网络上有超过50%的邮件是垃圾邮件,不仅占用了网络的带宽及邮件服务器的存储空间, 同时也浪费了用户的时间和精力。人们提出了垃圾邮件问题的多种解决方法:
(1)实时黑名单(Real-time Blackhole List,RBL)技术。邮件服务器拒绝黑名单中的IP地址的连接请求。
(2)主机名反向验证技术。邮件服务器验证发送方服务器的域名与IP是否和DNS的记录符合,如果不符合,则拒绝连接。
(3)黑白名单过滤法。服务器根据用户设立的邮件地址的黑白名单进行过滤。
(4)基于邮件内容的各种过滤技术。
上述几种方法目前已经得到了实际应用。同时,国际上的研究机构也提出了防止垃圾邮件的解决方案,但是,它们都需要对现有的邮件发送机制进行较大的改变,实施起来有很大的难度,这些研究方案主要有:
(1)IRTF提出三个在不放弃SMTP等协议的情况下对邮件地址进行校验的方案。终端发送准许(SPF)、指定邮寄者协议(DMP)、保留邮件交换(RMX)。
(2)雅虎的DomainKeys方案。为邮件服务器编写出特定的检测软件,检测发送方的域合法性,并对邮件标上加密的验证标签,带有标签的邮件才为正常邮件。
目前的邮件用户代理(Mail User Agent)工具如Foxmail,MS Outlook等,大多都采用机器学习的算法基于垃圾邮件的内容进行过滤。从内容上看,垃圾邮件过滤可以看成一个二值分类问题:把邮件分为垃圾邮件类和合法邮件类。因此,各种文本分类方法都可以用于垃圾邮件的过滤,如基于规则的Ripper算法、决策树C4.5算法、Boosting方法、Rough Set方法,基于统计的支持向量机,kNN算法和贝叶斯分类方法等。其中,由于贝叶斯分类方法表现出了很好的性能,得到了广泛的研究。
2 分类方法的原理
2.1 基于向量化方法的降维
邮件是一个无结构的文本,需要把它表示成一个向量才能进行计算。一般采用向量空间模型来实现邮件向量化。
定义长度为l的词汇表V={w1,..,wj,..,wl},对于长度为m,由单词(称为一个Token)ωk顺序组成的邮件d{ω1,...,ωm},定义一个向量λx1,...,xi,...,xl,其中xi∈{0,1},当wi∈d时,xi=1,否则xi=0,即λ中的分量表示词汇表V的对应位置的单词是否在d中出现。
另一种向量化方法是,定义xi=ti(λ)l(λ)xi=ti(λ)l(λ),其中ti(λ)是第i个Token在λ中的出现次数,l(λ)是λ中的Token总数。更复杂的,可以定义包含n个单词的短语为一个Token(n-grams Token),但是,这样计算的时间复杂度是随n指数增长,一般只取n=1,2,3。
这样的空间的维数是巨大的,需要通过特征选择(Feature Selection)进行筛选。通过降维处理,能清楚地控制受很多参数影响的模型的变化,同时还能控制在多大程度上违反了朴素贝叶斯分类器所作的独立假设。特征选择按如下步骤进行:
(1)定义目标特征向量维数n;
(2)按下式计算出每个分类变量Xi与类别变量C之间的互信息MI(Xi,C):
ΜΙ(Xi?C)=∑Xi=xi,C=cΡ(Xi?C)logΡ(Xi,C)Ρ(Xi)Ρ(C)MI(Xi?C)=∑Xi=xi,C=cP(Xi?C)logP(Xi,C)P(Xi)P(C)
(3)选出n个使得MI(Xi,C)最大的分类变量Xi用来构成特征向量。
2.2 贝叶斯网络cort
用贝叶斯网络来形式化表示概率分类器。
定义贝叶斯网络是一个二元组B=G,Θ。其中,G是一个有向无环图,图中的节点表示随机变量Xi,节点之间的有向边表示随机变量之间的条件依赖关系。Θ是节点的参数向量,每个分量是一个条件概率表,定义了对应节点的局部概率分布。
贝叶斯网络结构表示了一个节点Xi在给定其父节点条件下和网络中的非后代节点条件独立。一个贝叶斯分类器就是用于分类任务的贝叶斯网络,它包含了一个代表类别变量的节点C,以及代表特征变量的节点Xi。给定一个实例x(特征变量的一组值x1,x2,...,xn),贝叶斯网络能让我们计算出每个可能的类别ck的概率P(C=ck|X=x),而分类的任务就是找出使得P(C=ck|X=x)最大的ck。根据贝叶斯定理
Ρ(C=Ck|X=x)=Ρ(X=x|C=ck)Ρ(C=ck)Ρ(X=x)P(C=Ck|X=x)=P(X=x|C=ck)P(C=ck)P(X=x)
这个式子中,P(X=x)对每个类别ck都相同,不需要考虑。先验概率P(C=ck)可以用样本空间中属于类别ck中的向量总数占样本空间中的向量总数的比例
原创力文档


文档评论(0)