- 1、本文档共19页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
复习题
一、单项选择题
1、以下哪些是爬虫技术可能存在风险(D)
A、大量占用爬去网站的资源
B、网站敏感信息的获取造成的不良后果
C、违背网站爬去设置
D、以上都是
2、下列不是urllib库的四大模块的是(C)
A、urllib.requestB、urllib.error
C、urllib.session
D、urllib.robotparser
二、判断题
1、urllib是python内置的处理HTTP请求的库。(对)
2、urllib的request模块可以非常方便地抓取URL内容,可以通过发送一个GET
请求,获取到网页的内容。(对)
3、MongoDB是关系型数据库。(错)
4、爬取网页数据的时候必须遵守robots.txt协议。(错)
5、定期更改网站结构进行可以一定程度上防止网页数据被爬取。(对)
三、简答题
1、请简要回答什么网络爬虫。
网络爬虫,又称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动请
求万维网网站并提取网络数据的程序或脚本。
2、请回答开发和使用网络爬虫的好处。
爬虫的出现在一定的程度上代替了手工访问网页,能够实现自动化采集互联
网的数据,以更高地效率去利用互联网中的有效信息。
复习题
一、单项选择题
1、HTTP协议的全称是(D)
A、文件传输协议
B、邮件传输协议
C、远程登录协议
D、超文本传输协议
2、正则表达式R+[0-9]{3},能匹配出以下哪个字符串(D)
A、R3B、039C、R09D、RR093
3、以下正则表达式中,属于非贪婪匹配,且允许出现0次的是(C)
A、.B、.*C、.*?D、.+?
4、下列选项中,发起HTTP请求成功后,服务器响应的状态码是(A)
A、200B、303C、404D、500
二、判断题
1、在python中,一般我们会使用re模块来实现Python正则表达式的功能。(对)2、re.search(pattern,string,flags=0)函数是扫描整个整个字符串,并返回第
一个匹配成功的。(对)
3、re.findall(pattern,string,flags=0)函数是扫描整个字符串,并将结果以
字典形式返回。(错)
4、sub(pattern,repl,string,count=0,flags=0)函数用于字符串中的匹配
项,该函数将匹配上的字符串替换成指定的字符串,返回新的字符串。(对)
5、re.I表示做多行匹配.(错)
三、编程题
1、拆分字符串,将下面诗中的每一句话分别提取出来。
shici=李白乘舟将欲行,忽闻岸上踏歌声。桃花潭水深千尺,不及汪伦送我情。’
参考代码:
shici=李白乘舟将欲行,忽闻岸上踏歌声。桃花潭水深千尺,不及汪伦送我情。
result=shicisplit(r,)
result=shici.split(r。)
foriteminresult:
print(item)
2、提取用户输入数据中的数据(数值包含正数和负数在内的实数)并求和,例
如字符串为:str1=-6.94hello87nice100bye,则和为-6.94+87+100=180.06,请编写程
序实现。
importre
#str1=-3.14good87nice1qbye
nums=re.findall(r-?\d+\.?\d*,strI)
result=sum([float(x)forxinnums])
print(result)
复习题
一、单项选择题
1、关于HTTP相关协议,以下说法错误的是(C)
A、HTTPS在HTTP的基础上加入了SSL协议
B、HTTP全过程分为请求和响应两个阶段
C、HTTP响应状态码404代表服务器正常响应
D、HTTP是应用层协议
2、用HTML标记语言编写一个简单的网页,网页最基本的结构是(D)
A、htmlhead…/headframe…/frame/html
B、htmltitle…/titlebody…/body/html
C、htmltitle…/titleframe…/frame/html
D、htmlhead…/headbody…/body/html
3、下面哪个不是HTML标签名称(D)
A、link
B、table
C、form
D、List
4、如果当前网页请求的url是
/test/images/abc.jpg,那么执行
request.url.split(/)[-1]代码的结果是(A)
A
您可能关注的文档
- 2024年《职业病防治法》宣传周答题活动竞赛考试题库300题(1).doc
- 2024年python期末复习考试练习题库(含答案).pdf - 人人文库(1).doc
- 2024年福建省储备粮管理有限公司招聘笔试参考题库含答案解析(1).doc
- 2024年干细胞医疗合作协议书(1).doc
- 2024年广东茂名市化州市人民法院审判辅助人员招聘笔试参考题库附带答案详解(1).doc
- 2024年济南市莱芜区社区工作者招聘笔试冲刺题(带答案解析)(1).doc
- 2024年江苏省农垦农业发展股份有限公司招聘笔试参考题库含答案解析(1).doc
- 2024年领导干部党纪学习教育读书班集中研讨发言(8篇合集)(1).doc
- 2024年内蒙古能源集团有限公司招聘笔试参考题库含答案解析(1).doc
- 2024年其他资格考试-国际焊接工程师(IWE)历年高频考点试卷专家荟萃含答案(1).doc
- 2025年党风廉政建设专题党课讲稿:统一思想、提高认识,推动党风廉政建设工作不断向纵深发展与坚守廉洁底线,共筑清风正气【2篇文】.docx
- 2025年专题生活会对照带头增强党性、严守纪律、砥砺作风、严守政治纪律和政治规矩,维护党的团结统一等“四个带头方面”个人对照检查发言材料【2篇文】供参考.docx
- 2025年党风廉政建设专题辅导党课学习讲稿3篇文.docx
- 2025年新党风廉政建设专题党课讲稿【3篇文】合集.docx
- 2025年党风廉政建设专题学习辅导党课讲稿:践行廉洁自律,杜绝微腐败,以实际行动争做新时代合格共产党员与加强党风廉政建设,树立办公室良好形象(2篇文)供参考.docx
- 2025年专题生活会对照带头在遵规守纪、敢于创新、增强党性、严守纪律、砥砺作风等“四个带头方面”个人对照检查发言材料【2篇】.docx
- 2025年党风廉政建设专题学习辅导党课讲稿2篇:持续深化党风廉政建设,推动全面从严治党向纵深发展与加强党风廉政建设,勇于担当敢于作为.docx
- 2025年党风廉政建设专题学习辅导党课学习讲稿(三篇)合编供参考.docx
- 2025年专题生活会对照带头履行全面从严治党政治责任、严守政治纪律和政治规矩,维护党的团结统一等“四个带头方面”个人对照检查发言材料【2篇文】供参考.docx
- 2025年党风廉政建设专题学习辅导党课讲稿:以自我革命精神走好新的赶考之路与加强党风廉政建设,勇于担当敢于作为【2篇文】.docx
文档评论(0)