Python爬虫实战.docVIP

  • 100
  • 0
  • 约7.89千字
  • 约 10页
  • 2017-03-28 发布于江苏
  • 举报
Python爬虫实战

Python爬虫实战 本篇目标 1.抓取淘宝MM的姓名,头像,年龄 2.抓取每一个MM的资料简介以及写真图片 3.把每一个MM的写真图片按照文件夹保存到本地 4.熟悉文件保存的过程,熟练Python 1.URL的格式 在这里我们用到的URL是?/json/request_top_list.htm?page=1,问号前面是基地址,后面的参数page是代表第几页,可以随意更换地址。点击开之后,会发现有一些淘宝MM的简介,并附有超链接链接到个人详情页面。 我们需要抓取本页面的头像地址,MM姓名,MM年龄,MM居住地,以及MM的个人详情页面地址。 2.抓取简要信息 相信大家经过上几次的实战,对抓取和提取页面的地址已经非常熟悉了,这里没有什么难度了,我们首先抓取本页面的MM详情页面地址,姓名,年龄等等的信息打印出来,直接贴代码如下 Python 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 __author__ = CQC # -*- coding:utf-8 -*- ? import urllib import urllib2 import re ? class Spider: ? ????def __init__(self): ????????self.siteURL = /jso

文档评论(0)

1亿VIP精品文档

相关文档