黑龙江工程学院《数据挖掘》2021-2022学年期末试卷.docVIP

黑龙江工程学院《数据挖掘》2021-2022学年期末试卷.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

站名:

站名:年级专业:姓名:学号:

凡年级专业、姓名、学号错写、漏写或字迹不清者,成绩按零分记。

…………密………………封………………线…………

第PAGE1页,共NUMPAGES1页

黑龙江工程学院《数据挖掘》

2021-2022学年期末试卷

题号

总分

得分

一、单选题(本大题共20个小题,每小题2分,共40分.在每小题给出的四个选项中,只有一项是符合题目要求的.)

1、在爬虫中,使用缓存的目的是()

A.提高爬取速度

B.减少重复请求

C.节省存储空间

D.以上都是

2、在处理大规模数据抓取时,以下哪个不是需要考虑的问题?()

A.存储容量

B.网络带宽

C.计算资源

D.数据加密

3、以下哪个库在Python中常用于网络爬虫?()

A.requests

B.BeautifulSoup

C.Scrapy

D.以上都是

4、在爬虫中,如何处理网页中的多媒体文件链接?()

A.下载

B.记录

C.忽略

D.以上都是

5、以下哪个不是爬虫中处理数据存储的优化方式?()

A.批量写入

B.压缩存储

C.索引优化

D.减少存储

6、网络爬虫如何处理网站的robots.txt文件?()

A.遵守规则

B.忽略

C.部分遵守

D.视情况而定

7、以下哪个不是爬虫中处理并发的方式?()

A.多线程

B.多进程

C.异步

D.单线程循环

8、在爬虫中,如何处理网页中的加密链接?()

A.破解加密

B.寻找解密方法

C.放弃抓取

D.以上都是

9、网络爬虫抓取数据时,需要遵循的最重要原则是:

A.抓取速度快

B.抓取数据准确

C.遵守网站的使用规则

D.尽可能抓取更多数据

10、以下哪个不是爬虫中处理数据压缩的方法?()

A.解压缩

B.忽略压缩数据

C.寻找未压缩的数据源

D.以上都是

11、以下哪种情况可能导致爬虫被网站封禁?

A.频繁访问同一页面

B.访问隐藏页面

C.未设置请求头

D.以上都有可能

12、在爬虫中,设置请求头的主要目的是()

A.提高爬取速度

B.伪装成浏览器

C.减少服务器响应时间

D.节省网络流量

13、爬虫在存储数据时,使用数据库的优点是()

A.便于查询和管理

B.节省存储空间

C.提高写入速度

D.无需进行数据处理

14、在网络爬虫中,以下哪个是常见的反爬虫策略?()

A.IP封锁

B.验证码

C.限制访问频率

D.以上都是

15、在处理动态网页时,以下哪种技术对爬虫比较有帮助?()

A.Selenium

B.PhantomJS

C.Splash

D.以上都是

16、以下哪个不是常见的反爬虫策略?

A.验证码

B.IP封禁

C.页面加密

D.数据压缩

17、爬虫在处理网站的robots.txt禁止爬取时,应该()

A.遵守规定

B.尝试突破

C.忽略不管

D.随机选择

18、以下哪个不是爬虫中处理数据格式转换的原因?()

A.适配存储需求

B.方便后续处理

C.提高数据安全性

D.满足其他系统要求

19、以下哪种存储方式不适合存储大量爬虫数据?()

A.内存

B.关系型数据库

C.非关系型数据库

D.文件

20、以下哪个不是爬虫中处理分页的方法?()

A.分析页面链接

B.模拟点击分页按钮

C.固定每页数量

D.随机获取分页

二、简答题(本大题共4个小题,共40分)

1、(本题10分)解释网络爬虫如何处理网页中的智能数据清洗相关元素。

2、(本题10分)说明网络爬虫如何处理网页中的边缘计算相关元素。

3、(本题10分)解释网络爬虫如何处理网页中的智能压缩相关元素。

4、(本题10分)简述网络爬虫如何处理网页中的智能数据挖掘相关元素。

三、编程题(本大题共2个小题,共20分)

1、(本题10分)编写Python代码,利用爬虫获取某电商直播网站特定商品的直播介绍。

2、(本题10分)使用Python实现爬虫,获取指定网页中的页面表单元素。

文档评论(0)

173****9369 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档