基于 python 的网络爬虫设计
【摘要 】近年来,随着网络应用的逐渐扩展和深入,如何高效的获取网上数据成为了无数公司和个人
的追求,在大数据时代,谁掌握了更多的数据,谁就可以获得更高的利益,而网络爬虫是其中最为常用的
一种从网上爬取数据的手段。
网络爬虫,即 Web Spider,是一个很形象的名字。如果把互联网比喻成一个蜘蛛网,那么 Spider就是
在网上爬来爬去的蜘蛛。 网络蜘蛛是通过网页的链接地址来寻找网页的。 从网站某一个页面 (通常是首页)
开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一
直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛
就可以用这个原理把互联网上所有的网页都抓取下来。
那么, 既然网络爬虫有着如此先进快捷的特点, 我们该如何实现它呢?在众多面向对象的语言中, 首
选python ,因为 python 是一种“解释型的、面向对象的、带有动态语义的”高级程序,可以使人在编程时保
持自己的风格,并且编写的程序清晰易懂,有着很广阔的应用前景。
关
您可能关注的文档
最近下载
- 广东省技工学校和职业培训机构教师教育理论函授培训作业册答案(2022年改版).pptx VIP
- 《危险化学品企业特殊作业安全规范》应用问答.pdf VIP
- 2023年最新资料员考试题库附答案【培优】.docx
- 光电子学与光子学原理与实践第五章答案.pdf VIP
- (完整版)土地登记代理人题库及答案(名校卷).docx
- 2023年资料员资格考试题库加下载答案.docx
- DB 6505T 054-2021 晚熟哈密瓜标准体系总则.pdf VIP
- 2023年施工员《设备安装施工专业管理实务》题库【突破训练】.docx
- (完整版)土地登记代理人题库附答案【精练】.docx
- 冲压工艺与模具设计试题一及答案.docx VIP
原创力文档

文档评论(0)