网络监管系统爬网算法优化.pdfVIP

  • 2
  • 0
  • 约1.49万字
  • 约 3页
  • 2017-06-10 发布于河南
  • 举报
网络监管系统爬网算法优化

网络与通信 文章编号:1008—0570(2007)07-3—0159-02 网络监管系统爬网算法优化 AnOptimizedAlgorithm ofSpiderNetworkforNetworkMonitoringSystem (1.成都航空职业技术学院;2.绵阳职业技术学院;3.四川大学)柴 晟 ,。谢 昌荣 林震宇 。 CHAlSHEkIG XIE CHANG RONG LINZHEN YU 摘要:针对搜索网络链接 时爬 网算法 的不足,设计 出一种优化算法 。这种优化算法通过解析 ICMP报文获取 IP地址.在识别 出 网页中所有链接地址表达 的基础上,提取其 中符合 网络监管范围的链接 ,从而实现网络监管的要求。运行结果表 明.经过优化 后 的搜 索提高 了工作效率 。 关键词:网络监管系统 ;爬 网算法 :Internet控制报文协议 中图分类号:TP393.07 文献标识码:A Abstract:Aimingattheshortcomingsofspideralgorithm, anoptimized algorithm hasbeendesigned whensystem searchingnetwork. Inordertoimplementnetwork monitoring, thisalgorithm obtainsIP addressthrough parsing ICMP Packet and extractsURLsin of , themonitorrangebaseonallof URLsrecongition.Thegood resultscould beachieved,whichtimeofserach Cna beshortenedgreat— lynadtheefficiencyisimproved. Keywords:networkmonitoringsystem ,M~dthm ofspidernetwork。ICMP 接方式出现,必须经过分析才能够得到。 1 引言 在网络监管系统搜索互联 网网站是否提供非法、有害的信 3 爬 网算法优化 息的过程中,需要使用爬 网算法对 网页 URL地址链接进行分 为了达到准确定位的 目的,本系统采用如下办法:在获取一 析。网页内容信息中所包含的URL地址链接可能很多.因此先 个网页链接 URL地址后,首先分离出该 URL地址 中所属网站 分析出网页内容信息中所包含 的网络链接.然后再从 中分析出 的主机名.然后利用 DNS域名服务器解析的原理。将此主机名解 更多的网络链接,这样 以网状形式发散获得非常多的网络链接。 析为 IP地址,只要有 了IP地址就可 以判 断其是否属于指定扫 最终获取属于监管范围的链接地址 。一般的爬 网算法实现起来 描 的 IP地址段.只有属于该 IP地址段 的网页链接才会被记录 虽然简单有效,但其存在几个问题,并不是一个有效的实用方法 。 下来进行更深一层次的处理 。 2 爬 网算法的问题 如何获取 DNS服务器从主机名解析出来的 IP地址是一个 重要 的问题 。DNS域名服务解析过程 中,URL被解析出来后 的 2.1搜索范围广 数据是继续向URL地址发送 的而不是 回送到请求端.所 以请求 爬 网算法采用完全发散 的信息采集方式,使得搜索范围太 端是无法知道的.除非等到 URL地址 的数据全部返 回才可 以获 广,而逐一对这些范围内的网页格式进行解析,获取下一级的链

文档评论(0)

1亿VIP精品文档

相关文档