基于文本内容的敏感词决策树信息过滤算法.pdfVIP

  • 252
  • 0
  • 约1.8万字
  • 约 5页
  • 2017-06-07 发布于浙江
  • 举报

基于文本内容的敏感词决策树信息过滤算法.pdf

基于文本内容的敏感词决策树信息过滤算法

第40卷  第9期   计 算 机 工 程   2014年9月     Vol.40  No.9   Computer Engineering September 2014 ·开发研究与工程应用 · 文章编号:1000-3428(2014)09-0300-05      文献标识码:A      中图分类号:TP393 基于文本内容的敏感词决策树信息过滤算法 邓一贵 ,伍玉英a b (重庆大学 a.信息与网络管理中心;b.计算机学院,重庆400030) 摘  要:随着互联网的高速发展,各种各样的信息资源呈指数级增长,随之出现许多负面影响,需要构建一个安全 健康的网络环境。 为此,提出针对网页文本内容的敏感信息过滤算法(SWDT-IFA)。 该算法不依赖词典与分词, 通过构建敏感词决策树,将网页文本内容以数据流形式检索决策树,记录敏感词词频、区域信息以及敏感词级别, 计算文本整体敏感度,过滤敏感文本。 实验结果表明,SWDT-IFA算法具有较高的查准率和查全率,且执行时间能 够满足当前网络环境的实时性要求。 关键词:文本过滤;敏感级别;决策树;分流;词频 Information Filtering Algorithm of Text Content-based Sensitive Words Decision Tree DENG Yi-gui ,WU Yu-yinga b (a.Information and CampusNetwork Management Center; b.School of Computer Science,Chongqing University,Chongqing400030,China) 【Abstract】With the development of Internet,many negative effects come out as the exponential growth of various information resources,whichmeansthatamoresecureandhealthynetworkenvironment shouldbeconstructedrightnow. In order to solve this problem,this paper proposes a Sensitive Word Decision Tree for Information Filtering Algorithm (SWDT-IFA) for content-based Web pages.The algorithm takesno consideration of dictionary and word segmentation, builds thefoundation on the sensitivewordsdecision tree,letstheweb text retrieval decision treein form of data stream, recordswordfrequency,regionalinformationand sensitivelevel,andcalculatesthe sensitivedegreeofthetexttofilterthe sensitivity.Experimental results show that the SWDT-IFA algorithm has precision ratio and recall ratio,and low time complexity which can require the real-time demand of network environment. 【Key words】 text fil

文档评论(0)

1亿VIP精品文档

相关文档