大数据爬虫技术第9章 存储爬虫数据.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
爬虫的数据存储可分为如下两种方式:文件存储数据库存储对于抓取的数据种类丰富、数量庞大的大规模爬虫来说,我们可以将这些爬虫结果存入数据库中,不仅方便存储,也方便进一步整理。对于这种中小规模的爬虫而言,可以将爬虫结果汇合到一个文件进行持久化存储。Python中常用的数据库系统主要包括如下两种:MySQLMongoDB一个基于分布式文件存储的数据库,是当前NoSQL(非关系型的数据库)数据库中比较热门的一种。它面向集合存储,易存储对象类型的数据,具有高性能、易部署、易使用等特点。一种

爬虫的数据存储可分为如下两种方式: 文件存储 数据库存储 对于抓取的数据种类丰富、数量庞大的大规模爬虫来说,我们可以将这些爬虫结果存入数据库中,不仅方便存储,也方便进一步整理。 对于这种中小规模的爬虫而言,可以将爬虫结果汇合到一个文件进行持久化存储。 Python中常用的数据库系统主要包括如下两种: MySQL MongoDB 一个基于分布式文件存储的数据库,是当前NoSQL(非关系型的数据库)数据库中比较热门的一种。它面向集合存储,易存储对象类型的数据,具有高性能、易部署、易使用等特点。 一种开源的关系型数据库,使用最常用的数据库管理语言(结构化查询语言SQL)进行数据库管理。它会将数据保存到不同的表中,不仅速度快,而且灵活性高。 在实际使用中,上述两种数据库各有利弊,都能够用做数据存储,大家可以根据自己的需求进行相应的选择。 01 数据存储简介 02 MongoDB数据库简介 03 使用PyMongo库存储到数据库 MongoDB是一款基于分布式文件存储的NoSQL数据库,具有免费、操作简单、面向文档存储等强大特点,旨在为Web应用提供可扩展的高性能数据存储解决方案。 功能 特性 模式自由 面向集合存储 自动分片 完整索引支持 丰富的查询 复制与高可用性 快速更新 高效传统存储方式 (1)打开MongoDB下载网站,单击【Community Server】选项查看当前可用于下载的数据库版本。 到目前为止,支持的最新最稳定的版本是3.6.3。 (2)单击【DOWNLOAD (msi)】按钮,下载msi文件。当下载完成以后,双击刚刚下载的文件。 (3)单击【Next】按钮,开始安装程序,之后直接按照提示安装即可。 (4)取消对【Install MongoDB Compass】的勾选,即不安装MongoDB Compass。 (5)创建两个目录“C:\MongoDBData\db”和“C:\MongoDBData\log”,分别作为数据和日志文件夹。 (6)打开控制台,将当前路径切换到MongoDB的安装目录下,在该路径下输入如下命令: mongod.exe --dbpath c:\MongoDBData\db (7)在实际使用中,使用Windows服务的方式打开比较方便。打开控制台,切换到MongoDB的安装目录,之后输入如下命令: mongod.exe --logpath C:\MongoDBData\log\ mongodb.log --logappend --dbpath c:\MongoDBData\db --serviceName MongoDB --install (8)输入如下命令,启动MongoDB服务器。 net start MongoDB (9)启动以后,可以看到如下所示的信息,表示成功启动了MongoDB服务。 (10)如果要关闭MongoDB服务,可以输入如下命令: net stop MongoDB 当下次打开电脑时,无需再次输入配置和启动命令,可以直接进入MongoDB安装目录下的bin目录下,双击“mongo.exe”打开数据库的交互窗口(mongo shell)即可。 01 单击此处添加标题,文字是您思想的提炼 02 单击此处添加标题,文字是您思想的提炼 CONTENTS Windows平台安装MongoDB数据库 MongoDB是一种非关系型数据库,它没有表的概念,其数据库的基本组成单元是集合。 SQL术语/概念 MongoDB术语/概念 解释/说明 database database 数据库 table collection 数据库表/集合 row document 数据记录行/文档 column field 数据字段/域 index index 索引 table joins 表连接/MongoDB不支持 primary key primary key 主键,MongoDB自动将_id字段设置为主键 在MongoDB中最基本的概念就是数据库、集合和文档,它们是MongoDB的三个组成元素。 数据库 集合 文档 show dbs admin 0.000GB local 0.000GB test 0.000GB 一个MongoDB中可以建立多个数据库,默认的数据库为“db”,它存储在data目录中。 数据库(DataBase): 表示一个集合的物理容器。 01 单击此处添加标题,文字是您思想的提炼 02 单击此处添加标题,文字是您思想的提炼 CONTENTS 比较MongoDB和MySQL的术语 文档(Document): 一组由键/值对组成的对象,对应着关系型数据库的行。 {name: Jane, age: 3

文档评论(0)

ZuiFeng + 关注
实名认证
文档贡献者

分享文档,资源共享

1亿VIP精品文档

相关文档