国外幕后人员分析新浪微博的删帖机制.pdfVIP

国外幕后人员分析新浪微博的删帖机制.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
国外幕后人员分析新浪微博的删帖机制 鉴于微博 API 的限制,研究人员主要跟踪了最可能会发敏感帖子的敏感用户组。从 2012 年 7月20 日到 9月 8 日,研究人员利用 API 以每分钟一次的频率搜索 3500 位用户的时间线,以每四秒一次的频率搜 索公共时间线。 由于新浪微博不支持匿名查询,所以他们利用 Tor 隐藏 IP后创建虚假用户帐号。他 们共 收集了 238 万用户时间线帖子,删贴率是 12.75% 。 考虑到新浪需要处理的大数据集规模, 发帖 后5 到10 分钟的删贴峰值,尤其是考虑到删贴无法完全用自动方式处理,新浪是如何做到迅速发现 和删除敏感帖子 ?研究人员提出了六个假说: 1.新浪微博有一个监视关键词列表,审查员将会浏览包含这些关键词的帖子决定是否删除。 2.微博有针对性的监视频繁发敏感帖子的用户。 3.在发现一个敏感帖子之后,审查员可以追溯所有相关的转贴,可以一次性的全部删除。 4.通过关键词搜索,微博删除了追溯的帖子导致了特定关键词在短时间内出现删除峰值。 5.审查员工作是分布式的,相对独立,其中部分人可能是兼职。 6.删贴速度与主题有关,根据主题的敏感度删除速度存在差异。研究人员利用自然语言处理技术进 行删贴主题分析,发现某些热门主题帖子比另外一些主题更快被删除 (如图所示 ),如群交、北京暴 雨死亡人数和司法独立等都在极端时间内删除了。 研究人员总结了 微博的过滤机制,其中主动过滤机制包括:显式过滤 ,微博通知发贴人他们的帖子 内容违反了内容政策 (但有些时候用户并不清楚到底是因为什么敏感词受阻 );隐式过滤 ,微博需要在 手动审查帖子后才会允许帖子上线 ;伪装发帖成功,其他用户看不到这位用户的帖子。 人人都是产品经理( )中国最大最活跃的产品经理学习、交流、分享平台

文档评论(0)

tianya189 + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

认证主体阳新县融易互联网技术工作室
IP属地上海
统一社会信用代码/组织机构代码
92420222MA4ELHM75D

1亿VIP精品文档

相关文档