桂林理工大学《数据挖掘与机器学习》2023-2024学年第二学期期末试卷.docVIP

桂林理工大学《数据挖掘与机器学习》2023-2024学年第二学期期末试卷.doc

装订线

PAGE2

第PAGE1页，共NUMPAGES3页

桂林理工大学

《数据挖掘与机器学习》2023-2024学年第二学期期末试卷

院(系)_______班级_______学号_______姓名_______

题号

一

二

三

四

总分

得分

批阅人

一、单选题（本大题共20个小题，每小题1分，共20分．在每小题给出的四个选项中，只有一项是符合题目要求的．）

1、在进行网络爬虫开发时，需要考虑网站的反爬虫机制。假设正在爬取一个电商网站的数据，以下关于应对反爬虫机制的描述，正确的是：（）

A.无视网站的反爬虫规则，强行爬取数据，以获取最大信息量

B.仔细研究网站的反爬虫策略，通过设置合理的请求频率、使用代理IP等方式，遵守网站规则进行爬取

C.利用自动化工具模拟人类的浏览行为，绕过反爬虫机制

D.对于有反爬虫机制的网站，直接放弃爬取，寻找没有反爬虫限制的网站

2、网络爬虫在爬取网页时，需要处理不同的网页格式，如HTML、XML等。假设我们要从一个XML格式的网页中提取数据，以下哪种方法比较适合？（）

A.使用XML解析库，如lxml

B.将XML转换为HTML，再进行解析

C.直接使用正则表达式匹配数据

D.以上都不是

3、在网络爬虫的运行过程中，IP

更多 >