一种改进自动更新的中文邮件过滤模型的设计.docVIP

下载本文档

0
0
约4.83千字
约 8页
2016-09-17 发布于北京
举报
版权申诉

一种改进自动更新的中文邮件过滤模型的设计.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种改进自动更新的中文邮件过滤模型的设计.doc

一种改进自动更新的中文邮件过滤模型的设计　　摘要：该文提出了一种改进的基于用户操作信息自动学习的贝叶斯算法，该算法在最小风险贝叶斯算法的基础上，自动学习新样本，弥补了传统的贝叶斯分类器不能及时更新的缺陷。建立自动更新的中文邮件过滤模型，通过搭建实验平台测试对比分析改进的基于用户操作信息自动学习的贝叶斯算法的综合性能。　　关键词：中文邮件过滤模型；贝叶斯分类算法；自动学习　　中图分类号：TP393 文献标识码：A 文章编号：1009-3044（2013）20-4706-04 　　根据卡巴斯基实验室数据，2012年垃圾邮件占所有电子邮件平均比例为72.1%。较2011年相比，下降了8.2个百分点。垃圾邮件数量下降的主要原因，是反垃圾邮件保护整体水平上升造成的。尽管电子邮件总数中的垃圾邮件比例有明显下降，但是电子邮件总包含恶意附件的邮件比例仅下降了3.4%。这一比例仍然很大，因为这一比例仅代表那些包含恶意附件的垃圾邮件，不包括那些具有指向恶意网站链接的电子邮件。同时2012年恶意电子邮件所使用的主题范围也更为广泛。垃圾邮件发布者主要假冒托管服务商、社交网络、快递公司、航空公司、酒店预定服务、优惠券服务以及金融机构和政府机构发送垃圾邮件。由于垃圾邮件和入侵、病毒等的结合越来越密切，黑客把垃圾邮件作为发动攻击的重要平台。垃圾邮件过滤功能目前被应用到所有电子邮件系统中，甚至免费的邮件系统。在垃圾邮件过滤过程中，用户最不愿意接受的就是将合法邮件误判为垃圾邮件，传统贝叶斯算法没有考虑到这种误判给用户带来的损失。由于目前垃圾邮件的形式千变万化，这就要求垃圾邮件过滤器必须随着垃圾邮件的变化而自动更新。因此本文从朴素贝叶斯算法出发，提出了最小风险贝叶斯邮件过滤算法和改进的基于用户操作信息自动学习的贝叶斯算法，该算法自动学习新样本，将新样本中新出现的特征信息能够自动添加到过滤器特征词库中，并自动更新分类器，弥补了传统的贝叶斯分类器不能及时更新的缺陷。用户能根据需求调整损失因子的大小，通过引进的一种最小风险贝叶斯决策规则来减小给用户造成的损失，达到较理想的过滤性能。　　1 一种改进的基于用户操作信息自动学习的贝叶斯算法　　1.1最小风险贝叶斯决策与算法　　1.1.1 最小风险贝叶斯决策规则　　假设邮件样本可由特征向量[tei]表示，决策空间由[n]个决策[βi，i=1，2，…，n]构成，状态空间由[m]个状态[εj，j=1，2，…，m]构成，则用损失函数[λ（βi，εj）]表示状态[εj]采取的决策[βi]时的损失，[λ]称作损失因子。　　已知先验概率[P（εj）]和类条件概率[P（tei|εj）]，[j=1，2，…，m]，因此在此条件下，根据贝叶斯公式，后验概率的公式为：　　由于损失因子[λ]的引入，在考虑误判带来的损失时，就应该考虑如何作出的决策才能使损失最小化。对于特征向量[tei]，故在采取在采取决策[βi]时的条件期望损失为：　　所谓条件风险就是采取决策[βi]时的条件期望损失值。若将得到的[n]个条件条件期望损失值排序，我们就能很容易找出决策[βk]使条件风险最小，即使条件风险最小的决策[βk]为：[F（βk|tei）=mini=1，2，…nF（βi|tei）]，则找出的决策[βk]就是最小风险贝叶斯决策。　　1.1.2 最小风险贝叶斯邮件过滤算法　　在实际的邮件分类中，将待分类邮件分为垃圾邮件和合法邮件两类（即[n=2]），易知邮件类别[ε={ε1，ε2}]，若我们用[ε1]表示垃圾邮件类别，[ε2]表示合法邮件类别。同时决策[β]也有两类：一类是把待分类的邮件叛定为垃圾邮件，用决策[β1]表示，另一类是把待分类邮件判定为合法邮件，用决策[β2]表示，则有：[β={β1，β2}]。故由判断所引起的损失可以分为以下几种情况：　　1）把垃圾邮件判定为垃圾邮件，其损失为[λ（β1，ε1）]；　　2）把垃圾邮件判定为合法邮件，其损失为[λ（β2，ε1）]；　　3）把合法邮件判定为垃圾邮件，其损失为[λ（β1，ε2）]；　　4）把合法邮件判定为合法邮件，其损失为[λ（β2，ε2）]。　　由于在邮件分类过程中，将垃圾邮件分类为合法邮件的过程很普遍，假定情况（2）的损失设为1，而情况（3）所带来的损失远远大于情况（2）的损失，故可将合法邮件判定为垃圾邮件的损失设为[λ（1≤λ≤+∞）]（表示将一封合法邮件判定为垃圾邮件所带来的损失相当于将一封垃圾邮件判定为合法邮件的损失的[λ]倍）。建立决策损失表如表1所示。　　通过上面的分析，在此基础上定义阈值[q=λ1+λ]，用它来反映用户对垃圾邮件的误判和对合法邮件误判的权重，即当[P（ε1|tei）≥q]，将[tei]分类到合法邮