第三章 垃圾邮件智能分类系统剖析报告.pdfVIP

第三章 垃圾邮件智能分类系统剖析报告.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

垃圾邮件智能分类系统剖析报告

一、引言

人们在饱受环境污染的痛苦之后逐渐形成一个共识:自然环境与人的生产

生活和健康幸福息息相关,“绿水青山就是金山银山”。然而,在网络时代,医

药宣传、招生广告、假证假发票等垃圾信息充斥于互联网。打开电子邮箱,一堆

垃圾邮件扑面而来,不慎点进去还可能使计算机中毒,甚至因为受骗而损失钱

财。这是不少人都会遇到的烦心事。网络空间是亿万民众共同的精神家园,网络

空间天朗气清、生态良好,符合人民利益。网络空间也要有“绿水青山”。

垃圾邮件通常定义为:未经用户请求,强行发送到用户信箱中,可能带有

广告、宣传资料和病毒等内容的电子邮件,一般具有批量发送的特征。垃圾邮件

可以分为良性和恶性。良性垃圾邮件是指各种宣传广告、资料等对收件人影响不

大的信息邮件。恶性垃圾邮件是指具有破坏性的电子邮件,例如计算机病毒邮

件,夸张不实,甚至包括色情内容的广告,钓鱼网站等。垃圾邮件智能类系统利

用人工智能技术,可以识别接收到的邮件中哪些是对接收方完全没有意义的邮

件,并进行拦截、删除等操作,从而有效过滤垃圾邮件,减少垃圾邮件对用户的

干扰,改善用户体验。

二、剖析目的

通过剖析垃圾邮件智能分类系统,了解人工智能的核心算法(如贝叶斯分

类器、聚类、决策树和人工神经网络等),熟悉智能技术应用的基本过程和实现

原理。

三、剖析内容与步骤

1.剖析内容

(1)剖析垃圾邮件智能分类系统的组成,分析系统构造,描述系统的基本

功能。

(2)了解垃圾邮件智能分类系统数据分析处理的基本方式。

(3)知道垃圾邮件智能分类系统搜索算法的基本原理,描述算法总体思路。

·

2.剖析步骤

(1)剖析垃圾邮件智能分类系统的组成。

(2)剖析垃圾邮件智能分类系统智能分析的步骤和方法。

(3)剖析垃圾邮件智能分类系统的核心算法。

四、剖析工具与方法

实地参观、文献研究、头脑风暴、思维导图、搜索引擎、Python编程平台、

人工智能开放平台、协作写作平台。

五、实施剖析过程

在人工智能技术发展的初

期,人们尝试通过人工编写规则来

解决许多问题。例如,在垃圾邮件

的检测中,当邮件中出现事先指定

的一些可能属于垃圾邮件的词语

时,这封邮件很可能就是垃圾邮

件。同时,当邮件里出现网址时,

它也很可能是垃圾邮件。这些规

则在一定程度上对垃圾邮件的检测

起到了作用,但是随着规则越来越

多,这样的检测系统也变得越来越

复杂。这时候,人们发现解决这种

问题的根本途径是如何自动地从数

据的某些特征中学习它们之间的关

系,并且随着对数据的不断学习,

提升垃圾邮件检测的性能。垃圾邮

件智能分类系统工作原理如图3-2垃圾邮件智能分类系统工作原理

所示。

·

机器学习是从数据中提取和学习有用的信息,不断提升机器性能的一种方

法。以垃圾邮件分类系统为例,机器学习的三个要素如下:

(1)任务(T):区分正常邮件与垃圾邮件。

(2)性能指标(P):成功过滤垃圾邮件的百分比。

(3)经验(E):“阅读”现有的邮件内容。

利用朴素贝叶斯分类器,运用Python构建一个垃圾邮件过滤器,过程如下:

构建机器学习模型首先得有足够的样本数据进行训练,我们利用网络上开

源的中文邮件数据集,提取其中的5000封正常邮件和5000封垃圾邮件进行训练。

通过解析所有邮件,提取并计算每个词语在正常邮件和垃圾邮件中的出现频率,

基于贝叶斯原理推断这封邮件是否需要过滤。

正常邮件示例:

发信人:pbdq(dp),信区:LostFound

标题:[报失]IC卡

请尽可能详细地描述您丢失物品的特征:IC卡。

姓名:丁强

学号:2018210502。

您丢失该物品大致的时间是?8月24日上午9点左右。您丢失该物品大致

的地点是?清华大学校医院体检处。如果有人拾获,如何和您联系?电话:

文档评论(0)

xiadaofeike + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8036067046000055

1亿VIP精品文档

相关文档