- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
互联网潜规则:如何进行敏感词屏蔽
互联网潜规则 :如何进行敏感词屏蔽
最近对直播比较感兴趣 ,被问到一个问 ——如何屏蔽弹幕中的不良内容 ?于是便有了如下
的学习内容。
一、什么是敏感词汇 ?
1.分类
敏感词可大致分为以下几类 :政治相关和人名、迷信邪教、黄赌毒、枪支弹药类、骂人讽 类、时
事类、广告和非法信息、其他类。
网上有很多专门的敏感词库 ,我在网盘里上传了一份名为百度内部的敏感词文件 ,仅供查
看ht t ps://pan.baidu.co m/s/1o8xt X 1K。
2.常出没的地方
所有传播的信息都需要。发送这些垃圾信息的人或者团队被称为“垃圾虫”。
敏感词不仅出现在社区论坛、IM聊天、影音娱乐等内部的评论或上传信息区域 ,还隐藏在头像、昵
称和签名这种地方 ,需要全面鉴别。
3.哪些地方需要屏蔽 ?
平常我们主要做的屏蔽是广告过滤、黄赌毒、暴力恐怖、谣言排查等几种。不同的场合屏蔽的级别
不同 ,而且基于传播时效性的不同 ,屏蔽方式分为同步过滤和异步召回。
比如微博的屏蔽就需要做到基础和全面 ,甚至一些时事热点也要纳入屏蔽范围。
再比如B站 ,为了保持弹幕的质量 ,它还需要屏蔽一些刷屏的、内容尴尬的弹幕 ,这些弹幕的内容
不算敏感 ,只是让人不喜欢。B站在弹幕方面算是鼻祖 ,做到了极致——用户可以根据颜色、字体
大小、展示方式甚至自定义的文本来进行屏蔽 ,同时 ,在视频右边还有专门的弹幕栏 ,也就是说 ,
我可以弹幕内容当做评论一条条地看而不受其干扰。如图所示 :
二、目前有哪些手段可以进行屏蔽 ?
综合说来 ,技术屏蔽手段主要通过特征库、语义分析、机器学习等方法来展开。 网易易盾上是分三
类来写的 :垃圾发现、垃圾识别、垃圾处理 ,有点表意不明 ,所以下面具体来介绍一下。 (以下综
合易盾和joy nwang的博客整理而成。 )
1.垃圾发现——针对新垃圾
①用户举报 :主要是指用户在使用产品过程中遇到不良信息 ,于是进行投诉。
为了保证投诉的效果 ,我们需要在举报的便捷性、显眼展示和奖励机制上花一些功夫去做 ,同时还
需要建立科学的举报分类 ,不仅方便用户选择 ,还能极大地帮助反垃圾训练特征样本 ,综合来做才
能有更好的效果。
②内容聚合 :主要是通过判断内容的相似性 ,从而确定是否为垃圾信息。
就文本来说 ,其相似度分为两个层面 ,第一是基于编辑距离的文本相似度计算 ,这种算法是根据一
段文字如何经过增删、移动而转化为另一段文字的操作步数 ,来计算两段文字的相似程度 ,运算的
时间和空间复杂度都很高 ,对于评论 ,标题这样的短文本往往能获得不错的效果 ,缺点是对长文本
不太适用 ,且没有考虑文本中意群的重要性。
第二是需要在原始文本中切分出有意义的Term ,然后对于两篇文章的Term集合 ,运算得出文本的
相似程度。复杂性上要高于前者 ,但在处理长文本的方面有优势 ,而且更有可能从意义的角度识别
出相似的文本族 (来源于ht t p://b og.csdn.net/joy nwang/art ic e/det ai s/6831565 )。
③蜜罐系统 :主要是针对专业的垃圾虫团体。
通常垃圾虫都有特定的工具协助 ,而这些工具大多会分析页面元素并进行调用。如果在页面中埋伏
一些“蜜罐” ,正常的用户无法看到这些入口 ,但是程序会直接调用这些入口进行垃圾信息发送。比
如某一些隐藏的评论主 ,只有程序才会去抓取这些主 并对它们发送垃圾信息。那么进了这些“
蜜罐”里的人 ,都可以被判断为非正常的用户。
2.垃圾识别
①特征匹配 :主要是基于已有垃圾特征进行匹配。
对文本来说 ,建立敏感词库就可以直接屏蔽相关词句 ,同时 ,对于文字的变种比如简转繁、加空格
、形近字、音近字 ,都可以有效识别。
对图片来说 ,主要是MD5 ,鲁棒哈希 ,Sif t特征识别等手段。对于音频和视频也支持MD5匹配。 (
原谅我实在不能理清后面几种手段的具体技术实现 ,不能展开讲 ,有兴趣的可以百度。 )总之 ,这
几种手段可以支持人像识别、动漫识别、相似匹配、图片旋转裁剪、改变亮度色调、水印识别等 ,
基本囊括了所有的不良图片。
②模型匹配 :主要是基于机器学习 ,可以在没有具体特征样本库的情况下识别内容的分类。
音频文件也通过大量语料学习能把语音转换成文本 ,然后进入文本匹配过程。视频则通过截图的方
式转换成为图片识别。
③规则匹配 :即模式匹配 ,分为正则表达式、多模式匹配算法、基于元数据的定制等。
百度给的定义是 :模式匹配是数据结构中字符串的一种基本运算 ,给定一个子串 ,要求在某个字符
串中找出与该
您可能关注的文档
最近下载
- 小学体育_队列队形教学设计学情分析教材分析课后反思.doc
- 中建项目商务策划汇报模板.pptx
- 公路中小跨径钢-混组合梁桥标准图集(制订)》技术方案报告.docx
- “设计思维与方法”教案.ppt
- 大职赛生涯闯关参考答案.docx VIP
- 2022《美宜佳公司营运资金管理存在的问题及对策研究》开题报告文献综述(含提纲)3200字.docx VIP
- 长垣市人民医院西学中培训班《方剂学》考试.pdf VIP
- 苏教版一年级科学上册4.1《自然物与人造物》(课件).pptx
- 电子商务招聘简章模板.pdf
- 统编版小学语文二年级上册第六单元 先辈伟人 大单元整体学历案教案 教学设计附作业设计(基于新课标教学评一致性).docx
文档评论(0)