- 2
- 0
- 约1.16万字
- 约 3页
- 2017-06-08 发布于河南
- 举报
维普资讯
第 29卷 第5期 计算机工程与设计 2008年3月
VO1.29 NO.5 ComputerEngineeringandDesign Mar.2008
基于权重均值的不良网页过滤算法研究
唐坚刚, 魏 然
(上海理工大学 计算机工程学院,上海200093)
摘 要:传统的网页权重过滤算法中的权重大都根据词频统计方法来确定,该方法不能很好地表达关键词对主题的表征程
度,且 易被某些网站利用反关键字过滤策略逃避检测。在传统方法的基础上,设置加权的关键字矩阵词典 ,从关联规则 出
发,应用汉语语料库里的同类词定义,提出基于同类词权重均值 的关联过滤算法。试验结果表明,该算法过滤更为高效,并
且能够很好地应对色情网站的反关键字过滤策略,尤其在色情与医学网页的
原创力文档

文档评论(0)