基于权重均值的不良网页过滤算法研究.pdfVIP

  • 2
  • 0
  • 约1.16万字
  • 约 3页
  • 2017-06-08 发布于河南
  • 举报

基于权重均值的不良网页过滤算法研究.pdf

维普资讯 第 29卷 第5期 计算机工程与设计 2008年3月 VO1.29 NO.5 ComputerEngineeringandDesign Mar.2008 基于权重均值的不良网页过滤算法研究 唐坚刚, 魏 然 (上海理工大学 计算机工程学院,上海200093) 摘 要:传统的网页权重过滤算法中的权重大都根据词频统计方法来确定,该方法不能很好地表达关键词对主题的表征程 度,且 易被某些网站利用反关键字过滤策略逃避检测。在传统方法的基础上,设置加权的关键字矩阵词典 ,从关联规则 出 发,应用汉语语料库里的同类词定义,提出基于同类词权重均值 的关联过滤算法。试验结果表明,该算法过滤更为高效,并 且能够很好地应对色情网站的反关键字过滤策略,尤其在色情与医学网页的

文档评论(0)

1亿VIP精品文档

相关文档