基于广义数字垃圾短信拦截策略研究.docVIP

基于广义数字垃圾短信拦截策略研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于广义数字垃圾短信拦截策略研究

基于广义数字垃圾短信拦截策略研究   【摘要】 当短信已经成为人们生活当中不可或缺的通信方式时,短消息业务也为信息垃圾的传播提供了一条便捷的渠道,因此针对垃圾短信的拦截成为各运营商的社会责任和网络运维的一部分。但低速、短信内容频繁变异让传统的拦截策略束手无策,而中文的博大精深又让新颖的语义分析拦截法命中率低及误拦率高。本文以不变应万变,抽取垃圾短信内容中的联系电话、诈骗卡号等数字串信息作为特征码进行拦截,则实现了对垃圾短信的精准打击,收到事半功倍的效果;如果进一步建立垃圾短信的大数据平台,则可使得基于广义数字的垃圾短信拦截策略如虎添翼。   【关键词】 垃圾短信 广义数字 变异数字 拦截 大数据一、背景   随着无线通信服务功能的不断增强和完善,短消息业务已成为人们生活中最普及的电信增值业务。然而,短消息业务在为用户提供便捷消息服务的同时,也为信息垃圾的传播提供了一条方便的渠道。随着我国移动通信网络建设的不断完善以及越来越多的可提供给用户短消息服务的平台的出现,垃圾短消息有愈演愈烈的趋势。   垃圾短消息的存在给用户与运营商均带来了不少的烦恼:用户可能被恐吓、骚扰,往往也被犯罪分子利用来进行违法活动,破坏安定团结的政治局面;而运营商也会由于用户错误的界定垃圾短消息的来源而受到用户的误解,给公司努力建立的良好声誉和品牌形象造成严重的影响。因此,目前各运营商在网络侧都大大加强了垃圾短信的整治力度,采用了众所周知的过滤和拦截,如流量规则、传统的关键字规则及其它发送行为规则,但由于这些规则本身的限制及垃圾短信发送者的“灵活”调整,使得现有的垃圾短信过滤策略总是滞后于垃圾短信发送行为,同时因为误拦与拦截效果两者之间的矛盾而使现有的垃圾短信拦截很难达到理想的效果。   因此,各运营商虽投入了大量的人力物力与垃圾短信发送者“斗智斗勇”,但效果仍不理解,仍因为频繁的垃圾、诈骗短信的发送而受到用户的各种诟病。   二、垃圾短信的关键特征分析   随着垃圾短信的整治工作的深入,垃圾短信由于以下特点而现有的大量策略面临命中率或误拦率高的窘境:   1. 低速发送。垃圾短信发送者采用大量号码,单一的发送号码至同一区域或省份的垃圾短信发送数量很小,内容分散。   2. 垃圾短信关键信息频繁变异,是传统的关键字抽样和语义分析等拦截手段一直的“恶梦”,如兜售发票的垃圾短信,可以将发票变异成“发漂”、“?l票”、“?lpiao”等,由于汉字的博大精深,所以短信内容中的中文可以变异成无数种,让运营商的垃圾拦截策略来不及变化和调整。   基于低速、短信内容的变异和中文的博大精深让传统的拦截策略束手无策,如果全部采用人工审核和确认的方式进行,为了保证正常短信的时延不能增加,必须进行系统扩容和大量的人工审核人力投入,并且人工审核量巨大。   但是,垃圾短信的内容无论怎么变异,无论怎么低速,无论发给谁,其中必不可少的关键特征是联系电话或诈骗电话的银行卡号等。因此,无论垃圾短信的发送号码如何变化,但由于成本关系,垃圾短信中所带的数字信息不会频繁变化。   【案例1】发送号码:86159xxxx7205;垃圾短信内容:“宏达汽贸销售九成新(套牌)车本田丰田3万,奥迪宝马5万,现代1,5万越野车可送货当面交易电话137xxx36768刘经理”   【案例1】发送号码:86159xxxx8307;垃圾短信内容:“汽贸销售九成新(套片卑)车本田丰田3万,奥迪宝马5万,现代1,5万越野车。联系电话137xxx36768王经理”   因此,根据垃圾短信中的数字信息这一关键特征进行拦截,将击中垃圾短信发送者的软肋,在垃圾短信拦截系统或手机中加以应用,可以取得事半功倍的效果。而基于短信内容中的数字进行拦截,是目前众多研究者和拦截策略所忽略的,且很多采用复杂算法的拦截策略还首先过滤了其中的数字等ASCII码,将垃圾短信中相对不变的关键特征“抛弃”了。   三、基于广义数字的拦截   3.1 主要功能模块   针对垃圾短信中的数字信息关键特征进行拦截,主要模块如下图1所示:   1. 广义数字。垃圾短信中所包含的电话号码、账号等数字,很多时候已不是简单的阿拉伯数字,不法分子为了避免被拦截,往往通过各种各样的形式来表达数字信息:阿拉伯数字、中文简体数字(如一、二、三)、繁体数字(如壹、贰、叁)、谐音数字、带符号的数字(①、?)、以全角或上下标表示的数字(如?、?)等等。我们把这些表现形式多样的“数字”定义为广义数字。   2. 广义数字库。即定义0~9每个阿拉伯数字分别可以等价于哪些广义数字,这是针对垃圾短信中的数字信息关键特征进行拦截成果与否的关键,系统拦截策略将根据此“广义数字库”进行判定字符是否为“数字”。如广义数字库中定义的数字1包括:1、1、

文档评论(0)

130****9768 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档