手把手教你用Python爬取百度搜索结果并保存.docxVIP

手把手教你用Python爬取百度搜索结果并保存.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
手把手教你用Python爬取百度搜索结果并保存 大家好,我是崔艳飞。众所周知,百度上直接搜索关键字会出来一大堆东西,时常还会伴随有广告消灭,不当心就点进去了,还得花时间退出来,有些费劲。 最近群里有个小伙伴提出一个需求,需要猎取百度上关于粮食的相关讲话文章标题和链接。正好小编最近在学习爬虫,就想着拿这个需求来练练手。我们都晓得,对Python来说,有大量可用的库,实现起来并不难,动手吧。 二、项目目标 爬取百度上关键字为“粮食”的搜索结果,并保存,提交给客户,用于进一步分析我国粮食政策。 三、项目预备 软件:PyCharm 需要的库:json, requests,etree 四、项目分析 1)如何进行关键词搜索? 利用response库,直接Get网址获得搜索结果。网址如下: /s?wd=粮食 2)如何猎取标题和链接? 利用etree对原代码进行规范梳理后,通过Xpath定位到文章标题和href,猎取标题和文章链接。 3)如何保存搜索结果? 新建txt文件,对搜索结果循环写入,保存即可。 五、项目实现 1、第一步导入需要的库 import json import requests from lxml import etree 2、其次步用requests进行恳求搜索 headers = { User-Agent:Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36 } response = requests.get(/s?wd=粮食lm=1, headers=headers) 3、第三步对猎取的源代码进行整理分析,通过Xpath定位需要的资源 r = response.text ???html?=?etree.HTML(r,?etree.HTMLParser()) ???r1?=?html.xpath(//h3) ???r2?=?html.xpath(//*[@class=c-abstract]) ???r3?=?html.xpath(//*[@class=t]/a/@href) 4、第四步把有用资源循环读取保存 for i in range(10): r11 = r1[i].xpath(string(.)) r22 = r2[i].xpath(string(.)) r33 = r3[i] with open(ok.txt, a, encoding=utf-8) as c: c.write(json.dumps(r11,ensure_ascii=False) + \n) c.write(json.dumps(r22, ensure_ascii=False) + \n) c.write(json.dumps(r33, ensure_ascii=False) + \n) print(r11, end=\n) print(------------------------) print(r22, end=\n) print(r33) ???? 六、效果呈现 1、程序运转结果,如下图所示: 2、保存为txt的文件最终结果如下图所示: 七、总结 本文引见了如何利用Python对百度搜索结果进行爬取、保存,是一个小爬虫,这也是Python好玩的地方,有大量免费的库可用,能帮你实现各种需求。工作量大,学会用Python! 最终需要本文项目代码的小伙伴,请在后台回复“粮食”关键字进行猎取,假如在运转过程中有遇到任何问题,请随时留言或者加小编好友,小编看到会挂念大家处理bug噢! -----------

文档评论(0)

liuxiyuliuxingyu + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档