第8章 文本挖掘与Web 数据挖掘.pptVIP

  • 7
  • 0
  • 约1.03万字
  • 约 81页
  • 2019-07-27 发布于江西
  • 举报
8.5 本章小结 文本挖掘以及Web数据挖掘技术在现实生活中有着广泛的应用。本章对文本挖掘以及Web数据挖掘技术作了简要介绍,并通过两个案例深入地展示了相关技术和思想。 * * * 8.4 基于内容的垃圾邮件识别 8.4.1 垃圾邮件识别方法简介 8.4.2 基于内容的垃圾邮件识别方法工作原理 8.4.3 一种基于聚类的垃圾邮件识别方法 * 8.4.1 垃圾邮件识别方法简介 主流的垃圾邮件识别技术可分为邮件服务器端防范技术和邮件客户端防范技术两大类 邮件服务器端防范技术: 基于IP地址、域名和 “(黑)白名单”过滤技术; 基于信头、信体、附件的内容过滤技术; 基于连接频率的动态规则技术; 邮件客户端防范技术: 充分利用黑名单,白名单功能; 慎用“自动回复”功能;尽量避免泄露邮件地址; * 基于内容的垃圾邮件识别技术 基于内容的垃圾邮件识别技术是邮件服务器端防范技术的主流技术,以上提到的基于信头、信体、附件的内容过滤技术是典型的基于内容的方法 这类型方法的典型代表有Bayes方法、kNN、支持向量机SVM、Rocchio、神经网络等 * 8.4.2 基于内容的垃圾邮件识别方法工作原理 一封标准格式的电子邮件包含有邮件头部(mail head)和邮件体(mail body)两部分 邮件头部包括发件人,收件人,抄送人,发信日期,主题,附件等信息 邮件体包括邮件正文信息 实例图如下:

文档评论(0)

1亿VIP精品文档

相关文档