互联网潜规则：如何进行敏感词屏蔽.pdf

下载文档

72
0
约2.67千字
约 4页
2017-06-02 发布于河南
举报
版权申诉
保障服务

互联网潜规则：如何进行敏感词屏蔽.pdf

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

互联网潜规则：如何进行敏感词屏蔽

互联网潜规则：如何进行敏感词屏蔽最近对直播比较感兴趣，被问到一个问 ——如何屏蔽弹幕中的不良内容？于是便有了如下的学习内容。一、什么是敏感词汇？ 1.分类敏感词可大致分为以下几类：政治相关和人名、迷信邪教、黄赌毒、枪支弹药类、骂人讽类、时事类、广告和非法信息、其他类。网上有很多专门的敏感词库，我在网盘里上传了一份名为百度内部的敏感词文件，仅供查看ht t ps://pan.baidu.co m/s/1o8xt X 1K。 2.常出没的地方所有传播的信息都需要。发送这些垃圾信息的人或者团队被称为“垃圾虫”。敏感词不仅出现在社区论坛、IM聊天、影音娱乐等内部的评论或上传信息区域，还隐藏在头像、昵称和签名这种地方，需要全面鉴别。 3.哪些地方需要屏蔽？平常我们主要做的屏蔽是广告过滤、黄赌毒、暴力恐怖、谣言排查等几种。不同的场合屏蔽的级别不同，而且基于传播时效性的不同，屏蔽方式分为同步过滤和异步召回。比如微博的屏蔽就需要做到基础和全面，甚至一些时事热点也要纳入屏蔽范围。再比如B站，为了保持弹幕的质量，它还需要屏蔽一些刷屏的、内容尴尬的弹幕，这些弹幕的内容不算敏感，只是让人不喜欢。B站在弹幕方面算是鼻祖，做到了极致——用户可以根据颜色、字体大小、展示方式甚至自定义的文本来进行屏蔽，同时，在视频右边还有专门的弹幕栏，也就是说，我可以弹幕内容当做评论一条条地看而不受其干扰。如图所示：二、目前有哪些手段可以进行屏蔽？综合说来，技术屏蔽手段主要通过特征库、语义分析、机器学习等方法来展开。网易易盾上是分三类来写的：垃圾发现、垃圾识别、垃圾处理，有点表意不明，所以下面具体来介绍一下。（以下综合易盾和joy nwang的博客整理而成。） 1.垃圾发现——针对新垃圾 ①用户举报：主要是指用户在使用产品过程中遇到不良信息，于是进行投诉。为了保证投诉的效果，我们需要在举报的便捷性、显眼展示和奖励机制上花一些功夫去做，同时还需要建立科学的举报分类，不仅方便用户选择，还能极大地帮助反垃圾训练特征样本，综合来做才能有更好的效果。 ②内容聚合：主要是通过判断内容的相似性，从而确定是否为垃圾信息。就文本来说，其相似度分为两个层面，第一是基于编辑距离的文本相似度计算，这种算法是根据一段文字如何经过增删、移动而转化为另一段文字的操作步数，来计算两段文字的相似程度，运算的时间和空间复杂度都很高，对于评论，标题这样的短文本往往能获得不错的效果，缺点是对长文本不太适用，且没有考虑文本中意群的重要性。第二是需要在原始文本中切分出有意义的Term ，然后对于两篇文章的Term集合，运算得出文本的相似程度。复杂性上要高于前者，但在处理长文本的方面有优势，而且更有可能从意义的角度识别出相似的文本族（来源于ht t p://b og.csdn.net/joy nwang/art ic e/det ai s/6831565 ）。 ③蜜罐系统：主要是针对专业的垃圾虫团体。通常垃圾虫都有特定的工具协助，而这些工具大多会分析页面元素并进行调用。如果在页面中埋伏一些“蜜罐” ，正常的用户无法看到这些入口，但是程序会直接调用这些入口进行垃圾信息发送。比如某一些隐藏的评论主，只有程序才会去抓取这些主并对它们发送垃圾信息。那么进了这些“ 蜜罐”里的人，都可以被判断为非正常的用户。 2.垃圾识别 ①特征匹配：主要是基于已有垃圾特征进行匹配。对文本来说，建立敏感词库就可以直接屏蔽相关词句，同时，对于文字的变种比如简转繁、加空格、形近字、音近字，都可以有效识别。对图片来说，主要是MD5 ，鲁棒哈希，Sif t特征识别等手段。对于音频和视频也支持MD5匹配。（原谅我实在不能理清后面几种手段的具体技术实现，不能展开讲，有兴趣的可以百度。）总之，这几种手段可以支持人像识别、动漫识别、相似匹配、图片旋转裁剪、改变亮度色调、水印识别等，基本囊括了所有的不良图片。 ②模型匹配：主要是基于机器学习，可以在没有具体特征样本库的情况下识别内容的分类。音频文件也通过大量语料学习能把语音转换成文本，然后进入文本匹配过程。视频则通过截图的方式转换成为图片识别。 ③规则匹配：即模式匹配，分为正则表达式、多模式匹配算法、基于元数据的定制等。百度给的定义是：模式匹配是数据结构中字符串的一种基本运算，给定一个子串，要求在某个字符串中找出与该