改进ReliefF算法在图像型垃圾邮件检测中应用研究.docVIP

下载本文档

17
0
约9.6千字
约 17页
2018-09-10 发布于福建
举报
版权申诉

改进ReliefF算法在图像型垃圾邮件检测中应用研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

改进ReliefF算法在图像型垃圾邮件检测中应用研究

改进ReliefF算法在图像型垃圾邮件检测中应用研究　　摘要:图像型垃圾邮件的传播给社会和人民生活造成了极大的负面影响。一些垃圾图像过滤技术的应用在一定程度上遏制了它的泛滥,但是在时间消耗和精确度方面很难兼顾。在对垃圾邮件图像的特征数据深入分析后,提出一种基于特征冗余度的ReliefF特征选择算法(R-ReliefF算法)。本算法首先获取图像特征,结合数据特征进行离散化,并对这些离散化后的特征集合进行优化,最后应用在垃圾图像识别上。对比发现,优化后提取的特征子集在识别垃圾邮件图像方面既减少了时间消耗,又提高了垃圾图像识别的精确度。　　关键词:图像型垃圾邮件; 特征冗余度; 特征选择算法; 特征子集　　中图分类号:TP391文献标志码:A 　　文章编号:1001-3695(2009)09-3256-03 　　doi:10.3969/j.issn.1001-3695.2009.09.015 　　　　Improved ReliefF algorithm applied in detecting image spam 　　LIU Wei,ZHANG Feng-li,CHENG Hong-rong,WAN Ming-cheng 　　(Sichuan Key Laboratory of Novel Computer Application Technology, School of Computer Science Engineering, University of Electronic Science Technology of China, Chengdu 610054, China) 　　Abstract:The spread of image spam brought much a pernicious influence on society.The application of image spam filters holds back the spread of image spam. At the depletion of time and the accuracy, they can’t satisfy both sides. This paper proposed an ReliefF feature selection algorithm based on feature redundancy(R-ReliefF algorithm), getting the features of iamge spams firstly, and discreted the features according to property of the featuresthe,then applied it on the optimization of the set of image spam features discreted. According to contradistinction, the optimization subset of features both decreased the depletion of time and increased the accuracy on detecting the image spam. 　　Key words:image spam; feature redundancy; feature selection algorithm; subset of features 　　　　0 引言　　　　近年来,含有垃圾图像附件的垃圾邮件急剧涌现?? [1],垃圾邮件制造者通过诱使用户查看和点击垃圾图像附件,散布各种商业广告、欺诈信息、反动言论、恶意链接等垃圾信息,严重威胁到我国的互联网络信息安全。为克服垃圾图片带来的危害,学者们对垃圾图片的过滤作了很多有益的探索。　　有学者利用OCR技术过滤垃圾图像?? [2],精确率和时间效率都较低。有学者利用图像本身的属性及其颜色属性等检测垃圾图像,时间效率有所提高,特征数较少,精确率较低[3~5]。为了提高精确度,有学者提取垃圾图像的文本区域、边缘属性和颜色属性等特征来检测垃圾图像,取得了很好的精确度[6~8]。但是由于提取的特征维数较多,无关和冗余特征也包含在特征集合中,精度和时间效率无法得到保证。本文通过分析垃圾图像特征集合,改进了垃圾图像分类的流程,并提出一种改进的ReliefF特征选择算法(R-ReliefF),对经过离散化处理的高维原始特征集合进行特征选择,得出低维特征子集,结合支持向量机分类算法进行垃圾图像的检测,得到了不低于原始特征集合的精确率,并在提高空间利用率的同时在