第5章Scrapy爬虫框架第3节爬虫数据持久化45课件.pptxVIP

下载本文档

1
0
约2.02千字
约 9页
2025-10-24 发布于陕西
举报
版权申诉

第5章Scrapy爬虫框架第3节爬虫数据持久化45课件.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第5章Scrapy爬虫框架

——第3节爬虫数据持久化

www.zhonghui.vip

【学习目标】

Ø（1）掌握基于终端指令的持久化存储

Ø（2）掌握基于管道的持久化存储

Ø（3）掌握使用数据库持久化存储

www.zhonghui.vip2

CONTENTS

u1数据保存到文件

u2数据保存到数据库

www.zhonghui.vip

3.1数据保存到文件

Ø基于终端指令的持久化存储

在Scrapy中可以将parse方法的返回值存储到制定后缀的文本文件中（只支持这些文本文件类型json、

jsonlines、jl、csv、xml、marshal、pickle）。但是操作中需要保证爬虫文件的parse方法中有可迭代类

型对象（通常为列表or字典）的返回值，该返回值可以通过终端指令的形式写入指定格式的文件中进行持

久化操作。

然后执行输出，指定格式进行存储：将爬取到的数据写入不同格式的文件（json、xml、csv等）中

进行存储。存储指令为：

scrapycrawlspiderName-ofilePath

www.zhonghui.vip4

3.1数据保存到文件

Ø基于管道的持久化存储

由于Scrapy框架中已经为使用者专门集成了高效、便捷的持久化操作功能，使用者直接使用即可。

要想使用Scrapy的持久化操作功能，有两个文件至关重要：items.py为数据结构模板文件，用于定义数

据属性;pipelines.py是管道文件，用于接收数据，进行持久化操作。

www.zhonghui.vip5

3.1数据保存到文件

Ø基于管道的持久化存储

基于管道的持久化存储流程为。

（1）爬虫文件爬取到数据后，需要将数据封装到items对象中。

（2）使用yield关键字将items对象提交给pipelines进行持久化操作。

（3）在管道文件中的process_item方法中接收爬虫文件提交过来的item对象，然后编写持久化存储

的代码将item对象中存储的数据进行持久化存储。

（4）在settings.py配置文件中开启管道。

www.zhonghui.vip6

CONTENTS

u1数据保存到文件

u2数据保存到数据库

www.zhonghui.vip

3.2数据保存到数据库

使用MySQL保存爬取数据，使用pymysql和数据库进行交互。

数据存储至MySQL的流程为：先创建数据库和数据库表，准备保存；写入爬虫目标URL，进行网络

请求；对爬取数据进行处理，编写Scrapy框架中的各个模块，运行程序得到具体数据；使用pymysql操

作数据库将数据保存到数据库中。

www.zhonghui.vip8

THANKYO

您可能关注的文档

文档评论（0）

***** + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

第5章Scrapy爬虫框架第3节爬虫数据持久化45课件.pptxVIP