- 2
- 0
- 约1.49万字
- 约 3页
- 2017-06-10 发布于河南
- 举报
网络监管系统爬网算法优化
网络与通信
文章编号:1008—0570(2007)07-3—0159-02
网络监管系统爬网算法优化
AnOptimizedAlgorithm ofSpiderNetworkforNetworkMonitoringSystem
(1.成都航空职业技术学院;2.绵阳职业技术学院;3.四川大学)柴 晟 ,。谢 昌荣 林震宇 。
CHAlSHEkIG XIE CHANG RONG LINZHEN YU
摘要:针对搜索网络链接 时爬 网算法 的不足,设计 出一种优化算法 。这种优化算法通过解析 ICMP报文获取 IP地址.在识别 出
网页中所有链接地址表达 的基础上,提取其 中符合 网络监管范围的链接 ,从而实现网络监管的要求。运行结果表 明.经过优化
后 的搜 索提高 了工作效率 。
关键词:网络监管系统 ;爬 网算法 :Internet控制报文协议
中图分类号:TP393.07 文献标识码:A
Abstract:Aimingattheshortcomingsofspideralgorithm, anoptimized algorithm hasbeendesigned whensystem searchingnetwork.
Inordertoimplementnetwork monitoring, thisalgorithm obtainsIP addressthrough parsing ICMP Packet and extractsURLsin of
,
themonitorrangebaseonallof URLsrecongition.Thegood resultscould beachieved,whichtimeofserach Cna beshortenedgreat—
lynadtheefficiencyisimproved.
Keywords:networkmonitoringsystem ,M~dthm ofspidernetwork。ICMP
接方式出现,必须经过分析才能够得到。
1 引言
在网络监管系统搜索互联 网网站是否提供非法、有害的信 3 爬 网算法优化
息的过程中,需要使用爬 网算法对 网页 URL地址链接进行分 为了达到准确定位的 目的,本系统采用如下办法:在获取一
析。网页内容信息中所包含的URL地址链接可能很多.因此先 个网页链接 URL地址后,首先分离出该 URL地址 中所属网站
分析出网页内容信息中所包含 的网络链接.然后再从 中分析出 的主机名.然后利用 DNS域名服务器解析的原理。将此主机名解
更多的网络链接,这样 以网状形式发散获得非常多的网络链接。 析为 IP地址,只要有 了IP地址就可 以判 断其是否属于指定扫
最终获取属于监管范围的链接地址 。一般的爬 网算法实现起来 描 的 IP地址段.只有属于该 IP地址段 的网页链接才会被记录
虽然简单有效,但其存在几个问题,并不是一个有效的实用方法 。 下来进行更深一层次的处理 。
2 爬 网算法的问题 如何获取 DNS服务器从主机名解析出来的 IP地址是一个
重要 的问题 。DNS域名服务解析过程 中,URL被解析出来后 的
2.1搜索范围广
数据是继续向URL地址发送 的而不是 回送到请求端.所 以请求
爬 网算法采用完全发散 的信息采集方式,使得搜索范围太 端是无法知道的.除非等到 URL地址 的数据全部返 回才可 以获
广,而逐一对这些范围内的网页格式进行解析,获取下一级的链
原创力文档

文档评论(0)