- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘要
摘要
PAGE
PAGE 3
摘 要
互联网已经成为现代生活中不可分割的一部分,互联网时代人们之间的联系交流日益紧密, 电子邮件作为非常重要的非即时联系方式,显示出越来越高的重要性。但是由于电子邮件现有 的收发协议的缺陷以及利益的驱使,导致了目前互联网上垃圾邮件泛滥成灾。越来越多的垃圾 邮件侵占了有限的存储、计算和网络资源,耗费了用户大量的处理时间,影响和干扰了用户的 正常工作、生活和学习。如何有效地治理垃圾邮件问题是全世界共同面临的一道难题,也是目 前互联网上亟待解决的问题。
目前,经常采用的垃圾邮件过滤技术一般包括白名单与黑名单技术、基于规则的过滤以及 基于关键词匹配的内容扫描等。另外还有一个研究方向就是从电子邮件的文本内容入手,使用 文本分类算法,对邮件进行分类。垃圾邮件过滤中常用的文本分类方法有简单贝叶斯、k-近邻、 决策树等。近年来随着小型计算机性能的提高,基于神经网络的分类方法研究也越来越多。张 铃和张钹教授于1999提出的交叉覆盖算法,也是神经网络算法的一种。交叉覆盖算法是利用了 M-P神经元模型的几何意义得到的一种领域覆盖的算法,它在一定意义上考虑到了网络结构的 优化问题,可以使得产生的神经网络的规模较小,而且方法实用、可行,解决了多年以来一直 未能很好解决的前向网络设计问题。
传统的基于内容识别的垃圾邮件过滤方法主要采用向量空间模型来表示邮件文档。向量空 间模型假设词与词间不相关,以向量来表示文本,从而简化了文本中的关键词之间的复杂关系, 文档用十分简单的向量表示,使得模型具备了可计算性。向量空间模型把文档简化为以词为单 位的项,每项都有权重,项即是向量空间中的维度,权重即是维度的大小。这样每篇文档就被 表示为一个n维空间中的向量,就可以通过空间向量的运算来处理文档,使得问题的复杂性大 大降低。但是这种表示方法是以词与词之间不相关为前提,模型没有考虑文档中上下文词语之 间的语义联系。而词共现模型是一种以统计为基础的自然语言处理模型,研究发现,两个词经 常共同出现在文档的同一窗口单元(如一句话、一个自然段等),则可以认为这两个词在意义上 是相互关联的,并且共现的概率越高,其相互关联越紧密。基于这样的思想,本文将传统的向 量空间模型和词共现模型结合起来表示邮件文档,在传统方法的基础上,增加使用词共现模型 选取出的一部分词共同构成向量空间来表示邮件,再采用交叉覆盖算法构建垃圾邮件过滤分类 器。实验表明,本文提出的方法能够提高邮件过滤的性能。
纵观全文,主要做了以下工作:
基于神经网络和词共现模型的垃圾邮件分类器研究
基于神经网络和词共现模型的垃圾邮件分类器研究
1)分析了现有的邮件过滤技术,并做了归纳总结。
2)提出了基于词共现模型和向量空间模型的邮件表示方法,以及在此基础上的垃圾邮件 过滤模型。实验表明此模型的过滤效果要比传统方法要优。
3)针对词共现模型选取的维度和传统方法选取的维度的不同参数做了详细的实验。
4)在不同实验语料集的基础上,对比了共现度度量的三种方法和信息增益方法选择的维 度的分类效果,得出了基于共现次数的共现度度量方法选择的维度最优的结论。
关键字:词共现模型、特征提取、垃圾邮件、覆盖算法、信息增益
Ab
Abstract
Abstract
As is known to all of us that internet has become an indispensable part in our life, communications between people are more frequent than ever. As a very important non-real-time communication approach, E-mail is of great significance. However, internet is swamped with a large number of spams because of the deficiencies of the present mailing protocols and the financial interests. A growing number of spams are taking up the limited storage, computation and network resources. Internet users have to spend much time getting rid of them, which influence and interfere with users normal work, life and study. How to efficiently deal
您可能关注的文档
- 基于胜任力模型的RX房地产公司销售经理培训研究-人力资源管理专业论文.docx
- 基于网络编码的无线传感网数据传输技术研究-计算机科学与技术专业论文.docx
- 基于统计推断理论的绿色建筑群决策评价方法研究-土木工程建造与管理专业论文.docx
- 基于声发射的煤与瓦斯突出预测研究-控制理论与控制工程专业论文.docx
- 基于石墨烯通道的场效应晶体管的可制造性研究-机械设计及理论专业论文.docx
- 基于人工神经网络模型的黑河流域径流模拟预报-自然地理学专业论文.docx
- 基于时域基音同步叠加算法的语音合成技术研究-通信与信息系统专业论文.docx
- 基于数字辅助技术的电源管理单元的研究与设计-微电子学与固体电子学专业论文.docx
- 基于生命周期的公共建筑物质流-能量流及低碳研究-工程热物理专业论文.docx
- 基于数字图像处理的哈密瓜成熟度无损检测技术研究-农业机械化专业论文.docx
- 浙江2025学年第一学期高三12月适应性联考日语含答案.doc
- 江苏省镇江市2025-2026学年高三上学期12月期中质量监测语文试题及参考答案.doc
- 山西省部分学校2025-2026学年高三上学期12月月考英语含答案.doc
- 山西省部分学校2025-2026学年高三上学期12月月考政治含答案.doc
- 山西省部分学校2025-2026学年高三上学期12月月考语文试题含答案.doc
- 浙江2025学年第一学期高三12月适应性联考地理含答案.doc
- 浙江2025学年第一学期高三12月适应性联考历史含答案.doc
- 山东省实验中学2025-2026学年高三上学期第三次诊断性考试数学含答案.doc
- 山东省实验中学2025-2026学年高三上学期第三次诊断性考试物理含答案.doc
- 山西省部分学校2025-2026学年高三上学期12月月考数学试题含答案.doc
原创力文档


文档评论(0)