网络爬虫实验课.pptVIP

下载本文档

50
0
约小于1千字
约 11页
2016-12-07 发布于湖北
举报

网络爬虫实验课.ppt

实验一：网络爬虫实验说明实验一学时数：4学时（10月10日、10月17日）课堂上主要讲实验原理，课后请大家补充时间编码实验结果：10月24日前提交实验报告、源代码与可执行程序打包文件到邮箱：1551739226@ 报告格式不限，但至少应包含实验原理说明、关键代码截图与解释、实验结果截图与解释、实验心得严格按时间提交，过时不阅网络爬虫 Crawler ，即Spider（网络爬虫），其定义有广义和狭义之分。狭义上指遵循标准的 http 协议，利用超链接和 Web 文档检索方法遍历万维网的软件程序；而广义的定义则是能遵循 http 协议，检索 Web 文档的软件都称之为网络爬虫。网络爬虫是一个功能很强的自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成部分。爬虫基本原理网络爬虫是通过网页的链接地址来寻找网页，从一个或若干初始网页的URL开始（通常是某网站首页），遍历 Web 空间，读取网页的内容，不断从一个站点移动到另一个站点，自动建立索引。在抓取网页的过程中，找到在网页中的其他链接地址，对 HTML 文件进行解析，取出其页面中的子链接，并加入到网页数据库中，不断从当前页面上抽取新的URL放入队列，这样一直循环下去，直到把这个网站所有的网页都抓取完，满足系统的一定停止条件。工作流程通用网络爬虫是从一个或若干个初始网页的上的 URL 开始

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

网络爬虫实验课.pptVIP