基于MetaseekerBBS网页信息抓取技术.docVIP

  • 6
  • 0
  • 约1.09万字
  • 约 20页
  • 2018-06-06 发布于湖北
  • 举报
基于MetaseekerBBS网页信息抓取技术

目录 1 引言 2 2 聚焦爬虫 2 2.1 聚焦爬虫工作原理 2 2.2 常见的聚焦爬虫 4 2.2.1 PhpDig 4 2.2.2 Soukey 5 2.2.3 Snoopy 5 2.2.4 MetaSeeker工具包 6 3 MetaSeeker的安装和使用 7 3.1 MetaSeeker的安装 7 3.1.1 对计算机硬件的要求 7 3.1.2 对软件环境的要求 7 3.1.3 下载和安装 8 3.1.4 Firefox参数调整 9 3.2 MetaSeeker的使用 10 3.2.1 三种映射 11 3.2.2 翻页的信息提取 13 3.2.3 新网页中新字段的提取(纵向爬行) 16 4 BBS网页信息提取 18 4.1 BBS网站结构特点 18 4.2新浪论坛大话教育版块的信息提取 26 参考文献: 33 基于聚焦爬虫的BBS网页信息提取技术 秦丽娟 摘要:随着信息时代的发展,互联网成为大量信息的载体,而如何有效的提取和利用这些信息成为一个巨大的挑战。本文以BBS网页信息的抓取为例,讲解如何利用Metaseeker工具包实现大量信息的获取。 关键词:网络爬虫;Metaseeker;BBS;网页信息抓取 1 引言 随着网络上大量信息的爆炸式增长,传统的通用搜索引擎面临着索引规模、更新速度和个性化需求等多方面的挑战。搜索引擎,例如AltaVista,Yahoo!和Goo

文档评论(0)

1亿VIP精品文档

相关文档