网站大量收购独家精品文档,联系QQ:2885784924

Python网络爬虫技术项目教程 练习题.docx

Python网络爬虫技术项目教程 练习题.docx

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第一章爬取静态网页

一、选择题

1.下列哪个是Request的安装命令?

A.pipinstallRequests B.yuminstallRequests

C.piplist D.rpmRequests

2.下列哪个属于Request的请求?

A.Rookie

B.Test

C.Post

D.Session

3.以下关于BeautifulSoupfind方法说法正确的是()

A.BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库

B.BeautifulSoup是一个C++库

C.BeautifulSoup是支持C语言调用

D.BeautifulSoup是支持Java语言调用

4.以下选项中不是Python数据分析的第三方库的是()

A.numpy

B.scipy

C.pandas

D.requests

5.对Scrapy描述正确的是()

A.一个Scrapy项目只能创建一个爬虫

B.一个Scrapy项目只能使用一管道

C.爬虫与管道之间传递数据不使用item子类

D.爬虫与管道之间传递数据使用item子类

简答题

1.请简述Requests的基本功能

2.Cookies的定义?

3.简述从Response对象(r)中可以获取到的内容

4.简述一下BeautifulSoup的作用

5.简述Scrapy架构中包含的组件

第二章爬取动态网页

一、选择题

1.下列关于scrapy爬虫的表述有误的是()

A.Scrapy可用XPath表达式分析页面结构

B.Scrapy可以用于数据挖掘、监测和自动化测试

C.Scrapy源码中默认callback函数的函数名就是parse

D.Scrapy使用了Twisted同步网络库来处理网络通讯

2.下列关于JSON支持是的数据结构,哪项是不正确的是?()

A.名/值对集合:这一数据结构由不同的键值对组成。

B.无序的对象结构:多个名称/值构成的封装体,类似字典表。

C.有序的对象结构:规整的文本文档、Execl等

D.有序的值列表:包括数组,列表,向量或序列等等。

3.下列哪个不属于JSON的数据类型()

A.Number

B.String

C.Char

D.Value

4.下列关于loads转化JSON数据转换为Python对象,错误的是()

A.object–dict

B.array–string

C.number(int)–int、long

D.true--True

5.下列对WebDriver=组件,说法错的是:

A.API:应用程序编程接口。这是一组用来操作WebDriver的“命令”。

B.库:一个代码模块,它只包含api和实现这些api所需的代码。

C.驱动程序:负责控制实际的浏览器。大多数驱动程序是由浏览器厂商自己创建的。驱动程序通常不是是与浏览器一起在系统上运行的可执行模块,而是在执行测试套件的系统上。

D.框架:用于支持WebDriver套件的附加库。

二、简答题

1.简述JSON对象的书写方式

2.简述JSON的基本概念

3.PhantomJS的特点

4.简述Selenium框架的作用

5.简述WebDriver的定位策略

第三章爬取APP数据

一、选择题

1.以下哪一个功能面板不属于Fiddler的主界面面板()

A.工具面板

B.监控面板

C.通讯面板

D.状态面板

2.以下哪一个是Windows查看IP地址的命令()

A.ipconfig

B.ifconfig

C.ipaddr

D.ipaddrroute

3.对Http请求方式描述正确的是()

A.POST请求可以传递大于2M的数据

B.GET请求可以传递大于2M的数据

C.POST请求可以传递没有限制

D.GET请求可以传递没有限制

4.以下关于http协议响应行中状态码说法正确的是()

A.200表示正常

B.403表示请求资源未找到

C.404表示请求资源无权访问

D.500请求方法不正确

5.捕获通过HTTPS发送的数据,需要启用HTTPS流量解密。配置项位于()

A.ToolsOptionsGeneral

B.ToolsOptionsHTT

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档