网友投稿:关于创作文档如何处理敏感数据

阅读(1534)顶(0)踩(0)发布作者:杨静发布日期:2020-01-20 14:14

创作文档如何处理敏感数据


      近来文档行业在一些敏感类文档,数据,都比较严格,很多人都不知道该上传些什么了。我作为一个资深文赚玩家,倒没有受到多少影响,因为我的文档都是经过自己的方法精心处理过的。以下是自己搞这么多年的一点小心得举例,分享给各位同行,过年了,顺便也赚点稿费。

第一步,通过标题分级。

     政府文件,其实我个人的理解是,自上而下的内容会出问题而且下载量不高,比如公告文章,领导讲话之类的,自下而上的不仅下载量高而且安全,比如学习报告,申请,心得体会,所以,我一般会先标题分类,政府的公告这种到处都有且风险还大的全部干掉。具体的我的习惯是分三级,第一级不上传,第二级需要人工介入判断,第三级只需工具处理。我的分类是:

第一级:标题中包含:公告,意见稿,意见,通知,建议,国家标准,等等等。

第二级:标题中包含:学习心得,会议决策,会议笔记,会议记录等等等。

不包含的就是第三级。

第二步,内容处理。

     办法是将诸如:劳动局,教育局,社保局等等等等的行政机关名称替换为XX局,将太原市,西安市,陕西省等等等替换为XXX

第三步,全文跑敏感词替换

     这个没条件的可以忽略不计,由于我自身是个程序员,所以我写了个程序,除了自动实现前两步的功能外,还能顺带监测一些关键词,监测出文章中出现非法内容,也是根据分级进行相应处理,基本上实现全自动操作。

    具体的可以给大家看下我的样本库:


1


     具体这个工具,如果需求量大,我可以考虑共享给大家,不过最好还是平台出一款可能更好,因为我自己一个人整理的关键词也是有限的。



顶(0)

踩(0)
网友评论(0)

暂无数据~
立即去评论吧