网络爬虫 实验课.pptVIP

  • 50
  • 0
  • 约小于1千字
  • 约 11页
  • 2016-12-07 发布于湖北
  • 举报
实验一:网络爬虫 实验说明 实验一学时数:4学时(10月10日、10月17日) 课堂上主要讲实验原理,课后请大家补充时间编码 实验结果:10月24日前提交实验报告、源代码与可执行程序打包文件到邮箱:1551739226@ 报告格式不限,但至少应包含实验原理说明、关键代码截图与解释、实验结果截图与解释、实验心得 严格按时间提交,过时不阅 网络爬虫 Crawler ,即Spider(网络爬虫),其定义有广义和狭义之分。狭义上指遵循标准的 http 协议,利用超链接和 Web 文档检索方法遍历万维网的软件程序;而广义的定义则是能遵循 http 协议,检索 Web 文档的软件都称之为网络爬虫。 网络爬虫是一个功能很强的自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分。 爬虫基本原理 网络爬虫是通过网页的链接地址来寻找网页,从一个或若干初始网页的URL开始(通常是某网站首页),遍历 Web 空间,读取网页的内容,不断从一个站点移动到另一个站点,自动建立索引。在抓取网页的过程中,找到在网页中的其他链接地址,对 HTML 文件进行解析,取出其页面中的子链接,并加入到网页数据库中,不断从当前页面上抽取新的URL放入队列,这样一直循环下去,直到把这个网站所有的网页都抓取完,满足系统的一定停止条件。 工作流程 通用网络爬虫是从一个或若干个初始网页的上的 URL 开始

文档评论(0)

1亿VIP精品文档

相关文档