一个网页过滤改进算法的应用与实现.docVIP

下载本文档

1
0
约3.19千字
约 5页
2018-04-13 发布于北京
举报
版权申诉

一个网页过滤改进算法的应用与实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一个网页过滤改进算法的应用与实现　　摘要:该文在介绍网页过滤技术的基础上,针对非法网页采取给敏感关键词加入“干扰”的特点,提出了一种关键词匹配的改进算法,经测试,该算法取得了良好的效果。　　关键词:过滤算法;网页过滤;关键词匹配　　中图分类号:TP393文献标识码:A文章编号:1009-3044(2009)33-9192-03 　　A Web Filtering Application and Implementation of Improved Algorithms 　　CHENG Ji-peng 　　(Heifei Railway Engineering School, Hefei 230011, China) 　　Abstract: On the bases of introducing web filtering technology, the paper puts forward an improved keywords match algorithm which is against that the illegal networks escape the detection of various web-monitoring systems by adding interference to the sensitive. After testing, the algorithm has achieved good results. 　　Key words: filter algorithm; web filtering; keywords matching 　　随着Web技术的发展成熟,网页逐渐成为互联网上信息交互的重要工具,对网页中不良信息的过滤也成了网络内容过滤的主要应用之一。所谓的网络内容过滤,就是根据某种网络安全的规定,通过一定的工具屏蔽掉网络信息流中不安全的内容,对不安全的内容的定义根据用户的不同而不同。　　1 常用的网页过滤技术　　目前,被各种过滤系统普遍采用的过滤方法可以概括为五种类型:PICS标签、URL拦截、关键词过滤、智能实时内容分析以及网页分类过滤。　　1.1 网页分级标注　　网页分级标注是按照一定的分级规定对网页的内容按不同类目的标准分级标注,再根据网页的分级标记进行过滤的方法。目前得到广泛认可的网页内容分级体系是因特网内容选择平台PICS,它是由万维网联盟于1995组织MIT、IBM等当时互联网上的主导力量成立的工作小组制定的一套技术规范。随着PICS技术规范的不断完善,许多网页分级机构都采用了PICS分级体系对网页进行标注,因此,PICS标注成为了网页过滤系统中采用的过滤方法之一。由于目前还没有对发布的网页加上分级标记的强制或鼓励机制,对一些不良信息的网页,制作者更不可能加上分级标记,因此,PICS对于网络内容过滤系统来说仅仅是个辅助的过滤方法。　　1.2 URL过滤　　URL规定了某一特定信息资源在WWW中存放地点的统一格式,即地址指针。URL过滤的原理是首先截获用户请求的URL地址,将该地址与预设的URL列表做比较,从而判断用户所请求的网络资源是否合法。通常URL过滤需要维护两种类型的列表,一个称为“黑名单”,包括禁止访问的目标网站的URL,其工作原理是首先假设除了列表中的资源外所有资源都是合法的,仅仅禁止用户访问列表中的资源;另外一个称为“白名单”,包括允许访问的网站的URL列表,其原理是假设除了列表中的资源外所有的资源都是非法的,仅仅允许用户访问列表中的资源。　　1.3 关键词过滤　　“关键词过滤”通过检查网页中是否出现敏感词语来决定用户请求访问的网页是否合法,其原理是将网页中出现的词和短语与关键词词典中设定的非法敏感关键词进行匹配,当匹配的个数达到预设的值时,则禁止用户访问该网页。关键词过滤方法是一种直接的方法,能快速检查一个网页是否包含非法内容。但此方法因不能区分词在不同语境中的歧义现象,常会以偏概全,存在“过度拦截”的问题。　　1.4 实时智能内容分析　　实时智能内容分析就是利用自然语言处理、人工智能等技术实时地对网页中的文本、图片等内容进行分析,从而判断网页的内容是否合法。目前实时智能内容分析过滤主要是基于网页文本内容的分析。基于文本内容分析算法方法主要有:潜在语义索引法和神经网络法。潜在语义索引法过滤精度较高,而神经网络法依照人们的长期实践经验,模仿了人脑对信息进行过滤的原理,并结合各种数学模型来实现它的功能,因此具有很强的自学习功能和自适应能力。　　1.5 网页分类过滤　　这种过滤方法在用户请求访问网页之前,就己经对网页的内容进行分析,并根据分析的结果将网页分类,并生成URL分类列表,用户在请求