- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第5章Scrapy爬虫框架
——第3节爬虫数据持久化
www.zhonghui.vip
【学习目标】
Ø(1)掌握基于终端指令的持久化存储
Ø(2)掌握基于管道的持久化存储
Ø(3)掌握使用数据库持久化存储
www.zhonghui.vip2
目录
CONTENTS
u1数据保存到文件
u2数据保存到数据库
www.zhonghui.vip
3.1数据保存到文件
Ø基于终端指令的持久化存储
在Scrapy中可以将parse方法的返回值存储到制定后缀的文本文件中(只支持这些文本文件类型json、
jsonlines、jl、csv、xml、marshal、pickle)。但是操作中需要保证爬虫文件的parse方法中有可迭代类
型对象(通常为列表or字典)的返回值,该返回值可以通过终端指令的形式写入指定格式的文件中进行持
久化操作。
然后执行输出,指定格式进行存储:将爬取到的数据写入不同格式的文件(json、xml、csv等)中
进行存储。存储指令为:
scrapycrawlspiderName-ofilePath
www.zhonghui.vip4
3.1数据保存到文件
Ø基于管道的持久化存储
由于Scrapy框架中已经为使用者专门集成了高效、便捷的持久化操作功能,使用者直接使用即可。
要想使用Scrapy的持久化操作功能,有两个文件至关重要:items.py为数据结构模板文件,用于定义数
据属性;pipelines.py是管道文件,用于接收数据,进行持久化操作。
www.zhonghui.vip5
3.1数据保存到文件
Ø基于管道的持久化存储
基于管道的持久化存储流程为。
(1)爬虫文件爬取到数据后,需要将数据封装到items对象中。
(2)使用yield关键字将items对象提交给pipelines进行持久化操作。
(3)在管道文件中的process_item方法中接收爬虫文件提交过来的item对象,然后编写持久化存储
的代码将item对象中存储的数据进行持久化存储。
(4)在settings.py配置文件中开启管道。
www.zhonghui.vip6
目录
CONTENTS
u1数据保存到文件
u2数据保存到数据库
www.zhonghui.vip
3.2数据保存到数据库
使用MySQL保存爬取数据,使用pymysql和数据库进行交互。
数据存储至MySQL的流程为:先创建数据库和数据库表,准备保存;写入爬虫目标URL,进行网络
请求;对爬取数据进行处理,编写Scrapy框架中的各个模块,运行程序得到具体数据;使用pymysql操
作数据库将数据保存到数据库中。
www.zhonghui.vip8
THANKYO
您可能关注的文档
- 第2章扩展VLAN扩展网络61课件.pptx
- 第2章扩展VLAN扩展网络76课件.pptx
- 第2章扩展VLAN扩展网络81课件.pptx
- 第2章密码学技术哈希函数40课件.pptx
- 第3.5地质图及其阅读54课件.ppt
- 第3章Django框架07课件.pptx
- 第3章Django框架12课件.pptx
- 第3章Django框架13课件.pptx
- 第3章Django框架20课件.pptx
- 第3章Django框架30课件.pptx
- Unit 2 What’s interesting about families 第2课时 Explore(分层作业)英语沪教版三年级上册(新教材).docx
- 2025年铁岭县辅警考试题库.docx
- 2024年南阳市宛城区事业单位招聘联考笔试真题.docx
- (精品)反比例函数图像和性质课件3.ppt
- 2024年渭南市华州区第一幼儿园招聘笔试真题.docx
- 共情性疼痛的神经生物学机制研究进展2026.pdf
- 2024年泉州市晋江市图书馆招聘真题.docx
- 2024年西安外国语学校招聘笔试真题.docx
- 2024年文山州马关县第二幼儿园招聘教师笔试真题.docx
- 2022-2024宁波市宁海县长街镇社区工作者招聘考试真题.docx
原创力文档


文档评论(0)