网站大量收购独家精品文档,联系QQ:2885784924

基于词汇链的中文变异垃圾短信文本语义识别 - 计算机工程与应用.pdf

基于词汇链的中文变异垃圾短信文本语义识别 - 计算机工程与应用.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于词汇链的中文变异垃圾短信文本语义识别 - 计算机工程与应用

Computer Engineering and Applications 计算机工程与应用 2012 ,48 (19) 135 基于词汇链的中文变异垃圾短信文本语义识别 刘金岭,冯万利,高 丽 LIU Jinling, FENG Wanli, GAO Li 淮阴工学院 计算机工程学院,江苏 淮安 223003 Computer Engineering Faculty, Huaiyin Institute of Technology, Huai ’an, Jiangsu 223003, China LIU Jinling, FENG Wanli, GAO Li. Semantic recognition of altered Chinese junk short messages based on lexical chain. Computer Engineering and Applications, 2012, 48 (19):135-139. Abstract :An algorithm for recognition of altered Chinese junk short message based on lexical chain is proposed. By constructing lexical chains for each short message text, the multiple depiction clews can be conveyed, and some strong lexical chains with high quality can be extracted to represent main content, and can remove redundancy that different keyword sequence reflects same meanings. It compares the lexical chains constructed to determine the vari- ation of junk short messages. Experimental results show that this approach can identify the variation of junk short messages more accurately. Key words :lexical chain; junk short messages; rariation 摘 要:提出一种基于词汇链的判断变异垃圾短信方法。该方法通过构造多条词汇链来表达短信文本的叙事 线索,再从多条词汇链中抽取出富含内容信息的词汇链,同时消除了多个关键词序列表达同一内容信息的冗 余;将构造的词汇链作为短信文本的信息相互进行比较,以对变异的垃圾短信信息进行识别。实验结果表明, 该方法能较准确地识别垃圾短信的变异信息。 关键词:词汇链;垃圾短信;变异 文章编号:1002-8331(2012 )19-0135-05 文献标识码:A 中图分类号:TP391 短信发送的方式一般有三种:通过互联网,通过 行加工,达到将垃圾短信叙述变异的目的。对变异 手机,利用群发器进行群发。不法分子利用短信群 垃圾短信的处理,目前国内外尚没有好的解决方 发器可以轻松地把同一条短信,一次群发给500 个人 法。通过对当前大量变异垃圾短信进行分析,总结 或1 000 个人,接收人数只要输入几个数字就行,它 归纳为如下几种类型:(1)用拼音代替关键字,如把 能连续工作,想发什么短信,想发给哪个号段的手机 “票”用piao 代替;(2 )用标点符号(最常用的符号有: 用户,都非常容易。而短信群发器发出短信后,接收 # 、* ,% ,@ , ,|)把关键词语分隔开,如短信:“需要: 用户的手机上有时显示的是手机号,有时显示的是 毕业*证发*票车牌*证各种资格证** ,货 特殊号码,这也是发送时可以设置的。一般一张卡 到付款”,短信中一些词被“*”隔开了。(3)中间增加 一分钟能发送20 条,如果把多张卡联网,一小时能发 词汇,以减少同一短信的发送总数。如“毕业证发票 出几万条甚至十几万条短信。据悉,电信运营商和

您可能关注的文档

文档评论(0)

magui + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8140007116000003

1亿VIP精品文档

相关文档