- 1、本文档共27页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
********第9章文件*第9章文件第6章Python网络爬虫《Python数据分析与应用》网络爬虫网络爬虫(WebSpider),又被称为网页蜘蛛或网络机器人,通过一定的规则自动地抓取网络信息。网络爬虫就是根据网址获取网页信息。例如,当输入网址:/,浏览器向DNS服务器发出请求,经过解析,将发送给浏览器的HTML、JS、CSS等文件解析出来,便成了百度内容。爬虫流程爬取Python提供了requests等库实现HTTP请求操作,获取网页的源代码。Requests方法解释requests.get()获取html的主要方法requests.head()获取html头部信息的主要方法requests.post()向html网页提交post请求的方法requests.put()向html网页提交put请求的方法requests.patch()向html提交局部修改的请求requests.delete()向html提交删除请求Requestsimportrequestsr=requests.get(url=http://www……)#GET请求print(r.status_code)#获取返回状态print(r.url)print(r.text)#打印解码后的返回数据解析从网页源代码中提取有用的信息。方法1:采用正则表达式提取,但是在构造正则表达式时比较复杂且容易出错。方法2:由于网页的结构有一定的规则,可以利用BeautifulSoup、pyquery、lxml等库提取网页节点属性、CSS选择器等网页信息。存储将提取到的数据保存到某处以便后续处理和分析,可以保存为TXT文本或JSON文本,也可以保存到MySQL和MongoDB等数据库。正则表达式正则表达式,又称正规表示法、常规表示法,是指通过事先定义好的特定字符(“元字符”)组成的“规则字符串”,对字符串进行过滤逻辑。凡是符合规则的字符串,认为“匹配”,否则,不“匹配”。正则表达式采用正则表达式判断一个字符串是否包含合法的Email,需要创建一个匹配Email的正则表达式,然后通过该正则表达式去判断。正则表达式元字符含义输入输出.匹配任意字符?a.cAbc^匹配开始位置^abcAbc$匹配结束位置abc$Abc*?匹配前一个元字符0到多次abc*ab;abccc+匹配前一个元字符1到多次abc+abc;abccc?匹配前一个元字符0到1次abc?ab;abcre模块fIndall()compile()match()search()replace()split()Python中的re模块提供了一个正则表达式引擎接口,允许将正则表达式编译成模式对象,通过这些模式对象执行模式匹配搜索和字符串分割、子串替换等操作。Findall()importrep=pile(r\d+)print(p.findall(o1n2m3k4))[1,2,3,4]search()importrea=123abc456print(re.search(([0-9]*)([a-z]*)([0-9]*),a).group(0))123abc456print(re.search(([0-9]*)([a-z]*)([0-9]*),a).group(1))123print(re.search(([0-9]*)([a-z]*)([0-9]*),a).group(2))abcprint(re.search(([0-9]*)([a-z]*)([0-9]*),a).group(3))456Match()importreprint(re.match(www,).span())#在起始位置匹配(0,3)print(re.match(com,))#不在起始位置匹配Nonesplit()1)只传一个参数,默认分割整个字符串str=a,b,c,d,e;str.sp
您可能关注的文档
- 《Python数据分析与应用》(周元哲)教学大纲.doc
- Python数据分析与应用 课件全套 (周元哲) 第1--13章 Python编程概述--- Sklearn.pptx
- Python数据分析与应用 课件 第1章 Python编程概述.ppt
- Python数据分析与应用 课件 第3.1章 序列 .ppt
- Python数据分析与应用 课件 第4.1章 顺序程序设计.ppt
- Python数据分析与应用 课件 第5章 函数和模块.ppt
- Python数据分析与应用 课件 第7章 python与数据分析 .ppt
- Python数据分析与应用 课件 第8章 numpy.ppt
- Python数据分析与应用 课件 第9章 matplotlib.ppt
- Python数据分析与应用 课件 第11章 scipy.ppt
- 2024年中级经济师之中级工商管理每日一练试卷A卷含答案 .pdf
- 2024年江西省成考(专升本)教育理论考试真题含解析 .pdf
- 2024年小学生五一假期安全教育主题班会教案 .pdf
- 2024年学校学年工作计划(三篇) .pdf
- 2024年法律职业资格之法律职业客观题一自我检测试卷B卷附答案完整版720717035.pdf
- 2024年心理咨询师之心理咨询师基础知识综合检测试卷A卷含答案完整版720795375.pdf
- 2024年教师资格之中学综合素质基础试题库和答案要点 .pdf
- 2024年初中学习部工作总结(2篇) .pdf
- 2024年度最新国开《公共行政学》机考复习题库(含答案) .pdf
- 2024年度初会专业技术资格《初级会计实务》真题汇编及答案 .pdf
最近下载
- 开放系统11838《公共政策概论》期末机考真题及答案(第103套).pdf
- 信息论与编码(第3版)陈运课后习题答案.pdf
- 《给排水与采暖工程施工工艺标准(ZJQ00-SG-010-2016)》.pdf
- (4.5气象灾害之)台风教学设计一、教材分析本单元内容在整个高一.doc
- 电大一网一《网络安全技术》形考任务二(实验4、5、6,三选一,权重25%,需辅导教师评阅)作业2.doc VIP
- 2024年中考数学复习:常用数学思想方法讲义.pdf VIP
- 英语句子种类与类型.pptx VIP
- 超市应急预案(通用12篇).docx VIP
- 椭圆弦长公式(精品·公开课件).ppt VIP
- 办公楼装饰装修工程施工组织设计.pdf VIP
文档评论(0)