基于分层结构保留的增量网络爬虫算法.pdfVIP

  • 33
  • 0
  • 约2.3万字
  • 约 5页
  • 2017-09-18 发布于浙江
  • 举报

基于分层结构保留的增量网络爬虫算法.pdf

第30卷第8期 计 算 机 应 用 研 究 V01.3ONo.8 2013年 8月 ApplicationResearchofComputers Aug.2013 基于分层结构保留的增量网络爬虫算法米 胡廉民h卫,张泽斌。,徐威迪 ,黄 翰 ,李 英岫 (1.乐山师范学院a.物理与 电子工程学院;b.数学与信息科学学院,四川 乐山614000;2.华南理工大学 a.计 算机科学与工程学院;b.软件学院,广州510006;3.Oracle甲骨文研究开发中心(深圳)有限公司,广东深圳 518075) 摘 要:为了提高 目前爬虫算法抓取结果的有效性,提出了一种 旨在获取有效信息的改进网络爬虫算法,主要 设计了信息的分层结构保留策略和URL过滤模式。在改进算法中,网络资源定位符被分层存储,在保留信息全 部拓扑关系的基础上,将交错复杂的URL网络系统从一个图结构变为一个层次

文档评论(0)

1亿VIP精品文档

相关文档