基于PythonScrapy爬虫入门代码详解_光环大数据人工智能培训.pdfVIP

  • 8
  • 0
  • 约1.16万字
  • 约 11页
  • 2019-03-13 发布于江苏
  • 举报

基于PythonScrapy爬虫入门代码详解_光环大数据人工智能培训.pdf

光环大数据--大数据培训人工智能培训 基于 Python 的 Scrapy 爬虫入门:代码详解_光环大数据人工智能培训 一、内容分析 接下来创建一个爬虫项目,以 图虫网 为例抓取里面的图片。在顶部菜单“发 现” “标签”里面是对各种图片的分类,点击一个标签,比如“美女”,网页的 链接为:/tags/美女/,我们以此作为爬虫入口,分析一下 该页面: 打开页面后出现一个个的图集,点击图集可全屏浏览图片,向下滚动页面会 出现更多的图集,没有页码翻页的设置。Chrome 右键“检查元素”打开开发者 工具,检查页面源码,内容部分如下: div class=content div class=widget-gallery ul class=pagelist-wrapper li class=gallery-item... 可以判断每一个 li.gallery-item 是一个图集的入口,存放在 ul.pagelist-wrapper 下,div.widget-gallery 是一个容器,如果使用 xpath 选 取应该是://div[@class=”widget-galler

文档评论(0)

1亿VIP精品文档

相关文档