一种针对同音词伪装的反垃圾短信系统设计-计算机工程与应用.PDF

一种针对同音词伪装的反垃圾短信系统设计-计算机工程与应用.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
92 2013 ,49 (2 ) Computer Engineering and Applications 计算机工程与应用 一种针对同音词伪装的反垃圾短信系统设计 胡德敏,胡金龙 HU Demin, Hu Jinlong 上海理工大学 光电信息与计算机工程学院,上海 200093 School of Optical-Electrical and Computer Engineering, Shanghai 200093, China HU Demin, Hu Jinlong. System design against spam message disguised with homonym. Computer Engineering and Appli- cations, 2013, 49 (2 ):92-96. Abstract :As the progress of the spam message filtering technology, characteristics of spam message are changing all the time. Of them, spam message disguised with homonym can easily escape from filtering system. Feature that homonym shares same pinyin makes it possible that by replacing key words with pinyin it can pick up common vector and disguised vector. Making such two vectors as input of the filter system based on Bayesian respectively, it can get two independent outputs, by analyzing the outputs, the system can tell the spam message from the normal. Experimental result confirms that this system can identify spam message disguised with homonym effectively. Key words :spam message; Bayesian classification; words spit; possibility; extract 摘 要:近年来随着垃圾短信过滤技术的进步,垃圾短信的特征也在发生变化,其中利用同音词伪装的垃圾短信,就能轻 松逃避很多过滤系统的拦截。针对这个问题,利用同音词伪装其拼音不变的特点,提出了以拼音串作为提取垃圾短信特 征的关键字,从短信中提取出普通向量和伪装向量,并分别作为输入量,进行相互独立的贝叶斯过滤的方法,最后综合两 次过滤的结果,判断是否为垃圾短信。实验结果表明,该方法能有效地识利用同音字伪装的垃圾短信。 关键词:垃圾短信;贝叶斯分类;分词;概率;提取 文献标志码:A 中图分类号:TP391 doi :10.3778/j.issn. 1002-8331.1208-0007 1 引言 些先验知识就能对未知分类的短信进行分类,从达到识别 1.1 垃圾短信过滤的研究 垃圾短信的目。因此对关键字词的概率统计分析的准确 垃圾短信的治理主要依赖于技术手段,目前比较成熟 性直接决定着整个过滤系统的可靠性。而关键字词的概 的技术手段有:黑白名单技术、基于规则的过滤技术、基于 率统计分析的准确性又严重依赖于系统识别关键字词的 关键词的过滤技术和基于内容的过滤技术。其中前三种 能力。 技术尽管实现起来比较容易,但分别存在着灵适应性差、 基于贝叶斯分类算法的过滤系统最早应用于对英文 滞后性明显和容易造成误判的缺点。相比较而言,基于内 文本的分类,文献[1-2]表现出很高可靠性,但若直接应用 容的过滤技术则能很好地克服上述不足。 于对中文文

文档评论(0)

fengruiling + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档