华南理工大学《信息检索与web挖掘》项目计划文档.docxVIP

下载本文档

7
0
约 7页
2018-04-30 发布于重庆
举报
版权申诉

华南理工大学《信息检索与web挖掘》项目计划文档.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

华南理工大学《信息检索与web挖掘》项目计划文档

华南理工大学《信息检索与web挖掘》项目计划文档题目：基于模糊识别的垃圾邮件检测与识别方法学院计算机科学与工程专业计算机科学与技术（全英创新班）学生姓名黄炜杰、黄健文、林力挺、柳雨新学生学号 201230590051、201236590048 201230590082、201236590130 指导教师董守斌课程编号 S0812057 课程学分 2分起始日期 2016年4月30日项目简介【项目名称】基于模糊识别的垃圾邮件检测与识别方法【项目类型】研究和设计算法【工作目标】建立一个垃圾邮件检测与识别系统，提高其在对抗环境下垃圾邮件识别的准确率，其中对抗环境在这个情境下指的是，垃圾邮件制造者有意在垃圾邮件中通过增删改等方式使得邮件逃避系统的检测。我们的主要目标在于提出一种鲁棒的垃圾词模糊识别方法，使得系统在有垃圾邮件制造者恶意攻击的情况下依然能够识别出垃圾邮件。同时提出鲁棒的特征选择方式，提高垃圾邮件制造者对邮件检测系统攻击的代价，也就是指垃圾邮件制造者需要对垃圾邮件做出更多的修改才能蒙骗检测系统。【实验环境】操作系统：window 10(64bit) 编译器: Visual studio 2013 Matlab R2012b 编程语言: C/C++ Matlab 数据集：Trec07p 工作内容整个项目的流程可以概括如下：模型训练特征选择向量空间表示数据模型训练特征选择向量空间表示数据集获取词典获取词典获取图1. 项目流程图数据集获取：垃圾信息检测是有监督学习方法，数据集不仅应该包含文本内容，还应该包含相应的类别标签。爬虫方法可以爬到网页内容，但是网页不可能把自己标记为垃圾网页，而目前暂时没有多少垃圾网页制造者会像对抗环境下垃圾邮件制造者那样恶意修改文本，所以我们只针对邮件情况做研究（当然训练出来的模型，去掉模糊识别部分即可用于垃圾网页检测）。而邮件信息不可能通过爬虫获取，所以我们只能采取TREC上面最新的数据集Trec07p。这个数据集比较老，只有少部分邮件经过恶意的修改，所以我们需要对邮件进行人工的恶意修改以模拟对抗环境下的数据集。词典获取：在向量空间表示中，每个词代表一个特征，而得到相应的特征词，需要以下几个词典：停用词典、词库词典、特征词典。此外，还需要垃圾词词典进行模糊识别。这些词典通过TD、DF等计算得到。文本预处理，例如去停用词、词干提取等步骤都在这一部分完成。向量空间表示：通过精确匹配从而得到一封邮件的向量空间表示，此外还需要根据垃圾词典进行模糊识别，修改向量空间。这一步的主要任务是对邮件进行模糊识别，提高垃圾词的检测率。特征选择：在得到数据集的向量空间表示之后，可通过特征选择算法对特征词进行进一步的筛选，选出既具有判别能力，又不冗余的特征。模型训练：这一步在于选择合适的分类器对邮件数据集进行分类，既要考虑到数据集的维度，又要考虑到文本分类的特殊性。研究意义随着信息化时代发展，电子邮件已经成为人们交流沟通的重要渠道，而与此同时很多垃圾邮件制造者为了达到各种商业目的向用户发送了大量的广告垃圾邮件，给用户增加了很多麻烦。后来为了解决这个问题，垃圾邮件检测系统诞生了，并且对垃圾邮件有很好的拦截效果。可是道高一尺，魔高一丈，打开我们的邮箱都能发现有形如以下的垃圾邮件成功地进入了我们的收件箱：图2. 对抗环境下垃圾邮件示例为什么这些垃圾邮件有时不会被过滤掉呢，通过观察可以发现发送者在做账和发票之间都插入了各种奇怪的符号，使得机器不能认得出这些词，而对于我们人眼来说却可以一眼获取其中的信息。这就是所谓的对抗环境下的垃圾邮件过滤问题，传统的垃圾邮件检测识别方法并不能有效应付这种情况，而这种情况在现在已经很普遍。所以我们旨在研究鲁棒的垃圾邮件检测方法，提高垃圾邮件的识别率。相关的工作及参考文献垃圾邮件过滤技术已经是一个很“古老”的技术了，几十年前已经有相当多优秀的算法。可是这些算法并不是完美的，总有各种漏洞可以攻击，例如IP伪造、好词攻击、垃圾词攻击等。针对IP攻击已经有很多黑名单、信誉度等技术可以应付，而对于好词攻击也有相当多优秀算法可以解决[1,2]，然而对于垃圾词攻击 [3,4,5]，相关的技术仍是不够成熟。有的学者通过正则表达式等方法[4]来还