《不良文本变体关键词识别的词汇串相似度计算》.pdfVIP

  • 37
  • 0
  • 约3.72万字
  • 约 7页
  • 2015-11-25 发布于浙江
  • 举报

《不良文本变体关键词识别的词汇串相似度计算》.pdf

第32卷第3期    计算机应用与软件 Vol32 No.3 2015 年3 月   Computer Applications and Software Mar.2015 不良文本变体关键词识别的词汇串相似度计算 李少卿 吴承荣 曾剑平 钟亦平 (复旦大学计算机科学技术学院 上海200433) 摘 要  随着网络技术的发展,网络空间出现了各种各样的文本交流类网络应用,如聊天室、BBS 等。为维护网络环境的文明,这 些网络应用中会将用户发表的“脏话”词汇进行过滤。有些恶意用户为了避免所发信息被系统过滤,经常会将“脏话”词汇进行变形 处理,如何识别这些变形后的“脏话”词汇,是一个重要的问题。通过计算变异敏感词汇相似度,来对变形词汇进行识别。该方法具 有如下特点:(1)计算结果接近于人脑识别的结果;(2)计算所用的时间复杂度较低;(3)对变体识别率较高。根据计算的相似度 值,来决定是否对该疑似敏感词进行过滤。实验数据表明,所提出

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档