网络爬虫实验课.ppt

下载文档 降价啦

29
0
约小于1千字
约 11页
2017-06-19 发布于湖北
举报
版权申诉
保障服务

网络爬虫实验课.ppt

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

网络爬虫实验课资料

实验一：网络爬虫实验说明实验一学时数：4学时（10月10日、10月17日）课堂上主要讲实验原理，课后请大家补充时间编码实验结果：10月24日前提交实验报告、源代码与可执行程序打包文件到邮箱：1551739226@ 报告格式不限，但至少应包含实验原理说明、关键代码截图与解释、实验结果截图与解释、实验心得严格按时间提交，过时不阅网络爬虫 Crawler ，即Spider（网络爬虫），其定义有广义和狭义之分。狭义上指遵循标准的 http 协议，利用超链接和 Web 文档检索方法遍历万维网的软件程序；而广义的定义则是能遵循 http 协议，检索 Web 文档的软件都称之为网络爬虫。网络爬虫是一个功能很强的自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成部分。爬虫基本原理网络爬虫是通过网页的链接地址来寻找网页，从一个或若干初始网页的URL开始（通常是某网站首页），遍历 Web 空间，读取网页的内容，不断从一个站点移动到另一个站点，自动建立索引。在抓取网页的过程中，找到在网页中的其他链接地址，对 HTML 文件进行解析，取出其页面中的子链接，并加入到网页数据库中，不断从当前页面上抽取新的URL放入队列，这样一直循环下去，直到把这个网站所有的网页都抓取完，满足系统的一定停止条件。工作流程通用网络爬虫是从一个或若干个初始网页的上的 URL 开始，获得初始网页上的 URL 列表，在抓取网页过程中，不断从当前页面上抽取新的 URL 放入待爬行队列，直到满足系统的停止条件。爬虫的爬取策略：广度优先、深度优先、启发式方法等例子说明主界面新建工程通过新建工程来完成对初始url的设置以及爬取下来的网页需要保存的本地目录位置。网页结果以天涯为例，抓取下来的网页以txt的形式保存，并且里面同时保存有该网页上所有文字内容。实验要求基本要求（必做） 1.正确编译、运行给定的爬虫程序 2.选取网易新闻、天涯论坛、新浪微博，对抓取性能进行比较（如每分钟抓取网页数、图片数等、抓取失败数等指标，以表格和曲线的形式呈现），并给出分析进阶要求 1.修改源码，实现只抓取图片（或视频） 2.修改源码，实现只抓取层数5的网页