- 6
- 0
- 约1.09万字
- 约 20页
- 2018-06-06 发布于湖北
- 举报
基于MetaseekerBBS网页信息抓取技术
目录
1 引言 2
2 聚焦爬虫 2
2.1 聚焦爬虫工作原理 2
2.2 常见的聚焦爬虫 4
2.2.1 PhpDig 4
2.2.2 Soukey 5
2.2.3 Snoopy 5
2.2.4 MetaSeeker工具包 6
3 MetaSeeker的安装和使用 7
3.1 MetaSeeker的安装 7
3.1.1 对计算机硬件的要求 7
3.1.2 对软件环境的要求 7
3.1.3 下载和安装 8
3.1.4 Firefox参数调整 9
3.2 MetaSeeker的使用 10
3.2.1 三种映射 11
3.2.2 翻页的信息提取 13
3.2.3 新网页中新字段的提取(纵向爬行) 16
4 BBS网页信息提取 18
4.1 BBS网站结构特点 18
4.2新浪论坛大话教育版块的信息提取 26
参考文献: 33
基于聚焦爬虫的BBS网页信息提取技术
秦丽娟
摘要:随着信息时代的发展,互联网成为大量信息的载体,而如何有效的提取和利用这些信息成为一个巨大的挑战。本文以BBS网页信息的抓取为例,讲解如何利用Metaseeker工具包实现大量信息的获取。
关键词:网络爬虫;Metaseeker;BBS;网页信息抓取
1 引言
随着网络上大量信息的爆炸式增长,传统的通用搜索引擎面临着索引规模、更新速度和个性化需求等多方面的挑战。搜索引擎,例如AltaVista,Yahoo!和Goo
原创力文档

文档评论(0)