- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
\\\\\\\,,\\\\\\\ 川wmww1
:, Y18H ? :I
Research of Content-Based Spam Filtering by
SUN Jingtao
M.E. (Lanzhou University ofTechnology) 2008
A dissertation submitted in partial satisfaction of the Requirements for the degree of
Doctor of Engineering
l?
Control Theory and Control Engineering in the
Graduate School of
Lanzhou University of Technology
Supervisor Professor YUAN Zhanting Researcher ZHANG Qiuyu
June,2010
、、
)fr
J
rl,_.0,
rl,_.
0, 兰州理工大学学位论文原创性声明和使用授权说明
原创性声明
本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的 研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均 已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。
作者签名:翊\晶海 日期:勿,口年6月g日
学位论文版权使用授权书
本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有 权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和 借阅。本人授权兰州理工大学可以将本学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同 时授权中国科学技术信息研究所将本学位论文收录到《中国学位论文全文数据 库》,并通过网络向社会公众提供信息服务。
作者签名:象晶旃 日期:加矽年莎月g日
导师签名 日期:力肜年 多月g日
w
、,
J
曾
,..
_r9
_
r9
|Y
2.2.2目前基于内容的垃圾邮件过滤方法 18
2.3垃圾邮件过滤技术的发展趋势 。22
2.4本章小结 23
第3章LSA和MD5算法在邮件过滤中的应用 。
3.1潜在语义分析法 24
3.1.1理想的潜在语义分析模型 。24
l
.
y
,.
n§ 吖
4.3.4隶属函数的确定 ..46
4.4数值实验及结果分析 .47
4.4.1坞A的中文测试 ..47
4.4.2应用实例分析 .49
4.5本章小结 。52
第5章基于因子分析的模糊聚类分析方法在垃圾邮件过滤中的应用 5.1因子分析的基本原理 53
5.2模糊聚类分析方法 .55
5.3基于因子分析的模糊聚类分析方法 .56
5.3.1特征指标的预处理 ..56
n
t句
)1
J
Ⅵ
Ⅵ 矿◇
致谢 。87
附录A攻读博士学位期间所发表的学术论文。 。88
附录B攻读博士学位期间所参与的项目 .
m
)..11
作用
J
#
v
博十学位论文~
博十学位论文
~
rn▲、 摘 要
随着Internet的迅速普及,垃圾邮件问题引起了社会广泛的关注。目前解决垃 圾邮件问题有众多的途径和思路,其中基于内容的垃圾邮件过滤是一个较为重要 的方法。
本文从国内垃圾邮件泛滥的现状出发,以中文垃圾邮件过滤的相关技术为研
究方向,重点对潜在语义分析方法、“邮件指纹”生成策略、基于模糊支持向量机 的邮件过滤方法、模糊聚类算法在邮件过滤中的应用方式以及基于博弈论的邮件 特征选择对过滤性能所产生的影响进行了深入研究:
1为了解决潜在语义分析方法(LSA)在权重计算上因继承向量空间模型,而忽 视自身特点,导致缺乏文档先验信息和文档全局信息植入,使得在实际应用中过 分机械的问题,提出一种新的权重函数来改进原有权重的定义方式,使得基于主 动学习的潜在语义分析方法能构造出更适合于实际应用的垃圾邮件过滤模型。并 针对现阶段在拥有数万用户的大型局域网中,多数垃圾邮件采用动态改变主体或 发件人地址,而其正文及附件内容却基本一致的群发方式在网内传播的现象,提 出利用Message.Digest Algorithm 5(MD5)算法,在LSA分析的基础上,对群发型
垃圾邮件生成“邮件指纹”,来解决传统过滤技术在处理群发型垃圾邮件中低效的
问题,进一步提高了垃圾邮件识别的准确率。 2在模糊支持向量机(FSVM)分类方法的研究基础上,通过分析模糊支持向量
机在中文垃圾邮件识别时误判样本的特性,提出一种将LSA方法与FSVM方法相 结合的垃圾邮件过滤模型,并对FSVM方法中,隶属函数的确定还主要采用基于
您可能关注的文档
- 基于数据仓库的商业银行报表系统设计与实现-软件工程专业论文.docx
- 基于数据挖掘技术的电信客户流失预测模型的研究与应用-计算机应用技术专业论文.docx
- 基于无操作系统智能预约系统-软件工程专业论文.docx
- 基于拓扑关系的地籍数据库增量更新方法研究-测绘科学与技术专业论文.docx
- 基于数据挖掘的电信客户流失研究-计算机软件与理论专业论文.docx
- 基于网络演算的无线自组网TCP性能分析与改进-计算机应用技术专业论文.docx
- 基于网络数据挖掘的客户获取系统研究-技术经济及管理专业论文.docx
- 基于数字波束形成的毫米波防撞雷达研究-电子与通信工程专业论文.docx
- 基于网络外部性的电信市场竞争分析-管理科学与工程专业论文.docx
- 基于全球价值链视角的中国家具业转型升级研究-国际商务专业论文.docx
原创力文档


文档评论(0)