- 252
- 0
- 约1.8万字
- 约 5页
- 2017-06-07 发布于浙江
- 举报
基于文本内容的敏感词决策树信息过滤算法
第40卷 第9期 计 算 机 工 程 2014年9月
Vol.40 No.9 Computer Engineering September 2014
·开发研究与工程应用 · 文章编号:1000-3428(2014)09-0300-05 文献标识码:A 中图分类号:TP393
基于文本内容的敏感词决策树信息过滤算法
邓一贵 ,伍玉英a b
(重庆大学 a.信息与网络管理中心;b.计算机学院,重庆400030)
摘 要:随着互联网的高速发展,各种各样的信息资源呈指数级增长,随之出现许多负面影响,需要构建一个安全
健康的网络环境。 为此,提出针对网页文本内容的敏感信息过滤算法(SWDT-IFA)。 该算法不依赖词典与分词,
通过构建敏感词决策树,将网页文本内容以数据流形式检索决策树,记录敏感词词频、区域信息以及敏感词级别,
计算文本整体敏感度,过滤敏感文本。 实验结果表明,SWDT-IFA算法具有较高的查准率和查全率,且执行时间能
够满足当前网络环境的实时性要求。
关键词:文本过滤;敏感级别;决策树;分流;词频
Information Filtering Algorithm of Text Content-based
Sensitive Words Decision Tree
DENG Yi-gui ,WU Yu-yinga b
(a.Information and CampusNetwork Management Center;
b.School of Computer Science,Chongqing University,Chongqing400030,China)
【Abstract】With the development of Internet,many negative effects come out as the exponential growth of various
information resources,whichmeansthatamoresecureandhealthynetworkenvironment shouldbeconstructedrightnow.
In order to solve this problem,this paper proposes a Sensitive Word Decision Tree for Information Filtering Algorithm
(SWDT-IFA) for content-based Web pages.The algorithm takesno consideration of dictionary and word segmentation,
builds thefoundation on the sensitivewordsdecision tree,letstheweb text retrieval decision treein form of data stream,
recordswordfrequency,regionalinformationand sensitivelevel,andcalculatesthe sensitivedegreeofthetexttofilterthe
sensitivity.Experimental results show that the SWDT-IFA algorithm has precision ratio and recall ratio,and low time
complexity which can require the real-time demand of network environment.
【Key words】 text fil
您可能关注的文档
- [2002-中国激光]掺镱光纤放大器的实验研究.pdf
- ZZC自力式选型.pdf
- [2014-管理世界]公司为什么聘请异地独立董事.pdf
- [gbk] SD系列智能型内显示调试使用说明书.pdf
- [中学联盟]湖北省咸宁市嘉鱼县城北中学2014-2015学年八年级下学期期末考试物理试题(PDF版,无答案).pdf
- ZXMN10A25G中文资料(Diodes)中文数据手册「EasyDatasheet - 矽搜」.pdf
- [修改版]条板裂缝修补方案.pdf
- [大学计算机基础]大计资料.pdf
- ZXCD1000中文资料(Zetex Semiconductors)中文数据手册「EasyDatasheet - 矽搜」.pdf
- [徜徉在线]自己动手更换动力转向液。.pdf
原创力文档

文档评论(0)