用户收集关键词自我查找非法详解

阅读(2636)顶(0)踩(0)发布作者:杨老师发布日期:2019-08-28 16:31

作者:田老师


一、关键词从哪里来

       文档管理界面右下角的重要提示有敏感词库下载,但是关键词库的敏感词各种类型都有,不一定都适合每个用户。有的用户可能上传了很多小说,色情类的文档较多。有的人喜欢上传气功学佛之类的宗教文档,宗教封建迷信类违规的较多。所以用户首先需要根据自己文档来源以及回收站被删除记录来判断自己上传的文档主要存在的违规类型有哪些,优先针对这些类型进行查找。
另外,敏感词库的词也只是一个主要的大纲,相当于一个引子,每个词都可以找到很多相关联的信息和词汇,延伸出一个树状图出来。因此用户必须自我根据已有删除记录针对性的查找,已删除文档中能够收集的关键词数量都十分多了,而且通过这些信息还可以在百度里面收集更多内容。


二、如何分析已删除文档收集非法关键词

       针对回收站已被管理员删除的文档,首先要找到文章中能够体现出负面信息的句子或段落,然后再对句子或段落进行关键词提取,非法关键词通常为文章主题词、专用词、情感词,还要剔除其中的常规词汇(不具有代表性的、出现在大量正常文档中的词汇)。哪些词可以用于非法搜索查找,要保证这些关键词能够搜索到负面信息的同时又不会大量出现在正面的文章当中。


三、有了关键词之后怎么搜索

       用户文档数量过多,搜索不明确的关键词时结果数量可能会成千上万,这个时候就需要多个关键词组合搜索查找非法文档,适用于文档数量1万以上的用户,文档数量1万以下的用户搜索大部分关键词都不会出现太多文档,逐个审查的难度都不大。
       有的用户文档数量有几十万,单独搜索了一个词,例如“香港”,搜索出来的文档数量就有2万多个,其中肯定大部分是正常的,这样的搜索结果很难去一个个审核。因此,我们在搜索的时候就需要有更加明确的针对性。就如搜索“香港”,这个词就是一个地名,无法通过这一个词判断任何正面或者负面的信息。而香港相关的正面信息肯定占大多数,例如:香港回归历史、香港旅游攻略。这个时候我们就可以通过多个关键词组合来精准搜索,加入一些负面相关的词汇,缩小搜索范围。比如“香港 真普选”,香港 占中词汇中间有空格,搜索“香港 占中”代表文章中同时包含“香港”和“占中”两个词,必要时甚至可以同时搜索3个词。这样就更有针对性,文档数量相比单独搜索“香港”一个词少了99%以上,原来是2万个,两个关键词组合搜索仅有不到100个文档,这样审核起来就很容易了。



顶(0)

踩(0)
网友评论(0)

暂无数据~
立即去评论吧