- 100
- 0
- 约7.89千字
- 约 10页
- 2017-03-28 发布于江苏
- 举报
Python爬虫实战
Python爬虫实战
本篇目标
1.抓取淘宝MM的姓名,头像,年龄
2.抓取每一个MM的资料简介以及写真图片
3.把每一个MM的写真图片按照文件夹保存到本地
4.熟悉文件保存的过程,熟练Python
1.URL的格式
在这里我们用到的URL是?/json/request_top_list.htm?page=1,问号前面是基地址,后面的参数page是代表第几页,可以随意更换地址。点击开之后,会发现有一些淘宝MM的简介,并附有超链接链接到个人详情页面。
我们需要抓取本页面的头像地址,MM姓名,MM年龄,MM居住地,以及MM的个人详情页面地址。
2.抓取简要信息
相信大家经过上几次的实战,对抓取和提取页面的地址已经非常熟悉了,这里没有什么难度了,我们首先抓取本页面的MM详情页面地址,姓名,年龄等等的信息打印出来,直接贴代码如下
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28 __author__ = CQC
# -*- coding:utf-8 -*-
?
import urllib
import urllib2
import re
?
class Spider:
?
????def __init__(self):
????????self.siteURL = /jso
您可能关注的文档
- Lexical Features of Online English Ads.ppt
- Lin Dan Wins China Open Badminton__ Title3.ppt
- linux下利用互斥实现线程访问共享资源(含源文件).doc
- LM171WX3-TLC2_CAS_ver1_2_Dell_20080822.ppt
- love is fallacy.ppt
- LP101WX1-SLN1 Final CAS ASUS Ver1.1_20110516.ppt
- M1U2Home alone-reading1.ppt
- M5_Reading_life_in_sport.ppt
- m1u3learning about language.ppt
- M7-Unit2 Project.ppt
原创力文档

文档评论(0)