网站大量收购独家精品文档,联系QQ:2885784924

网络爬虫实验课.ppt

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网络爬虫实验课资料

实验一:网络爬虫 实验说明 实验一学时数:4学时(10月10日、10月17日) 课堂上主要讲实验原理,课后请大家补充时间编码 实验结果:10月24日前提交实验报告、源代码与可执行程序打包文件到邮箱:1551739226@ 报告格式不限,但至少应包含实验原理说明、关键代码截图与解释、实验结果截图与解释、实验心得 严格按时间提交,过时不阅 网络爬虫 Crawler ,即Spider(网络爬虫),其定义有广义和狭义之分。狭义上指遵循标准的 http 协议,利用超链接和 Web 文档检索方法遍历万维网的软件程序;而广义的定义则是能遵循 http 协议,检索 Web 文档的软件都称之为网络爬虫。 网络爬虫是一个功能很强的自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分。 爬虫基本原理 网络爬虫是通过网页的链接地址来寻找网页,从一个或若干初始网页的URL开始(通常是某网站首页),遍历 Web 空间,读取网页的内容,不断从一个站点移动到另一个站点,自动建立索引。在抓取网页的过程中,找到在网页中的其他链接地址,对 HTML 文件进行解析,取出其页面中的子链接,并加入到网页数据库中,不断从当前页面上抽取新的URL放入队列,这样一直循环下去,直到把这个网站所有的网页都抓取完,满足系统的一定停止条件。 工作流程 通用网络爬虫是从一个或若干个初始网页的上的 URL 开始,获得初始网页上的 URL 列表,在抓取网页过程中,不断从当前页面上抽取新的 URL 放入待爬行队列,直到满足系统的停止条件。 爬虫的爬取策略:广度优先、深度优先、启发式方法等 例子说明 主界面 新建工程 通过新建工程来完成对初始url的设置以及爬取下来的网页需要保存的本地目录位置。 网页结果 以天涯为例,抓取下来的网页以txt的形式保存,并且里面同时保存有该网页上所有文字内容。 实验要求 基本要求(必做) 1.正确编译、运行给定的爬虫程序 2.选取网易新闻、天涯论坛、新浪微博,对抓取性能进行比较(如每分钟抓取网页数、图片数等、抓取失败数等指标,以表格和曲线的形式呈现),并给出分析 进阶要求 1.修改源码,实现只抓取图片(或视频) 2.修改源码,实现只抓取层数5的网页

文档评论(0)

wyjy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档