整理的用Python编写的爬虫文档
Python 爬虫入门教程
[Python]网络爬虫(一):网络爬虫的定义
网络爬虫,即Web Spider ,是一个很形象的名字。
把互联网比喻成一个蜘蛛网,那么 Spider 就是在网上爬来爬去的蜘蛛。
网络蜘蛛是通过网页的链接地址来寻找网页的。
从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页
中的其它链接地址,
然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这
个网站所有的网页都抓取完为止。
如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互
联网上所有的网页都抓取下来。
这样看来,网络爬虫就是一个爬行程序,一个抓取网页的程序。
网络爬虫的基本操作是抓取网页。
那么如何才能随心所欲地获得自己想要的页面?
我们先从 URL 开始。
二、浏览网页的过程
抓取网页的过程其实和读者平时使用 IE 浏览器浏览网页的道理是一样
的。
比如说你在浏览器的地址栏中输入 这个地址。
打开网页的过程其实就是浏览器作为一个浏览的“客户端”,向服务器
端发送了 一次请求,把服务器端的文件“抓”到本地,再进行解释、
展现。
您可能关注的文档
- 数据结构线性表链表的C语言实现.pdf
- 数学通讯9月教师版文章汇集.pdf
- 数据模型设计标准工艺.pdf
- 数据设备抓包.pdf
- 数据维护终端操作手册.pdf
- 数据结构实验线性表.pdf
- 数据采集与传输系统设计报告1.pdf
- 数据指南针用户手册.pdf
- 数据库原理及应用-第9章关系查询处理和查询优化.pdf
- 数据结构课件-第6章.pdf
- 人教版七年级地理上册课件《第三章 陆地和海洋 第一节 大洲和大洋》.pptx
- 广东广州大学附属中学等校2025-2026学年下学期八年级阶段测试数学试卷(问卷)(含答案).docx
- 广东广州市南沙区2025-2026学年第二学期九年级适应性练习英语试卷(含答案).docx
- 广东清远市佛冈县2026年初中毕业生学业水平适应性考试英语试卷(一)(含答案).docx
- 广东省清远市阳山县2026年中考一模数学试卷(含答案).docx
- 河南鹿邑县观堂乡第一中学等校25-262025-2026学年度第二学期阶段性复习作业八年级数学试卷(含答案).docx
- 河南省洛阳市汝阳县2025~2026学年下学期期中学科素养检测八年级物理试卷(含答案).docx
- 河南省新乡市原阳县2025-2026学年第二学期期中复习作业(A)八年级物理试卷(含答案).docx
- 湖北省2025-2026学年八年级下学期期末模拟物理试卷(含答案).docx
- 湖北省武汉市江汉区2025-2026学年九年级上学期1月期末物理试卷(含答案).docx
最近下载
- 《婴幼儿常见病的识别、预防与照护》教案 项目9 婴幼儿常见传染病的识别、预防与照护.pdf VIP
- 老年医学考试题库及答案.doc VIP
- 美国国防部发布新版关键技术清单.docx VIP
- 中信建投-因子跟踪月报:波动率流动性价值因子表现较好.pdf VIP
- T_CSTM 00271.2-2020_民用飞机结构在役无损检测对比试块第2部分:复合材料结构对比试块.pdf VIP
- (植物生理学)第七章生殖生理.ppt
- T∕CSTM 00271.2-2020 民用飞机结构在役无损检测对比试块 第2部分:复合材料结构对比试块.docx VIP
- 社区应急预案演练记录.docx VIP
- 2026年高考北京卷语文试题解析及答案.docx VIP
- 化工设备、管道外防腐设计规定.pdf VIP
原创力文档

文档评论(0)