Python爬虫开发试题及解析.docxVIP

  • 5
  • 0
  • 约9.66千字
  • 约 24页
  • 2026-06-15 发布于上海
  • 举报

Python爬虫开发试题及解析

一、单项选择题(共10题,每题1分,共10分)

以下Python第三方库中,专门用于发送HTTP网络请求的爬虫基础库是

A.requests

B.pandas

C.matplotlib

D.numpy

答案:A

解析:A选项的requests是Python生态中最主流的HTTP请求库,也是爬虫开发的基础依赖;B选项pandas是数据分析处理库,C选项matplotlib是数据可视化库,D选项numpy是数值计算库,三者均不具备网络请求能力。

HTTP响应状态码403的准确含义是

A.请求的资源不存在

B.服务器内部发生错误

C.服务器拒绝了当前爬虫请求,禁止访问目标资源

D.服务器成功返回请求内容

答案:C

解析:403状态码代表服务器已经理解请求,但拒绝授权访问对应资源,是爬虫开发中最常见的反爬拦截状态码;A选项对应状态码404,B选项对应状态码500,D选项对应状态码200。

网站根目录下的robots.txt文件核心作用是

A.存储网站所有用户的账号密码信息

B.告知爬虫哪些路径允许爬取、哪些路径禁止爬取

C.给爬虫提供爬取数据的接口签名

D.存储网站的静态图片资源

答案:B

解析:robots协议是网站给出的爬虫访问指引文件,明确标注站点内允许爬虫访问的路径和禁止访问的路径;其余三个选项的描述均与robots.txt的

文档评论(0)

1亿VIP精品文档

相关文档