技能训练 技能训练 爬虫项目打包发布-技能训练.docxVIP

  • 0
  • 0
  • 约4.44千字
  • 约 18页
  • 2021-01-12 发布于北京
  • 举报

技能训练 技能训练 爬虫项目打包发布-技能训练.docx

爬虫项目打包发布 实训指导书 任务说明 任务内容 之前的实训我们已经成功实现了分布式爬虫,但是分布式爬虫的Scrapy项目要放在各台主机上分别部署运行,如果主机数量比较多的话,工作量将会大大增加,并且每台主机的版本也难于控制。 本次实训课程将通过便捷的打包部署工具来完成分布式爬虫项目的部署,以提高部署效率。 知识点/技能点 virtualenv scrapyd scrapyd-client spiderkeeper 任务目标(效果) 使用scrapyd-deploy工具把爬虫项目打包成egg文件 图表 SEQ 图表 \* ARABIC 1生成爬虫项目打包文件 在spiderkeeper部署工具上成功部署和运行爬虫项目文件 图表 SEQ 图表 \* ARABIC 2 运行作业 环境要求 win7/win10 python 3.6.X pycharm 2017.3 scrapyd 1.2.0 scrapyd-client 1.1.0 spiderkeeper 背景知识 Python虚拟环境virtualenv virtualenv是用来为每个项目工程创建一套“隔离”的Python运行环境。virtualenv创建一个包含所有必要的可执行文件的文件夹,以及用来运行Python项目工程所需的包。 在python开发中,我们可能会遇到一种情况,就是当前的项目依赖的是某一个版本,但是另一个项目依赖的是另一个版本,这样就会造成依赖冲突,而virtualenv就是解决这种情况的,virtualenv通过创建一个虚拟化的python运行环境,将我们所需的依赖安装进去的,不同项目之间相互不干扰,虚拟环境运行原理如图所示: 图表 SEQ 图表 \* ARABIC 3 python虚拟环境原理 Scrapyd Scrapyd是一个运行Scrapy爬虫的服务程序,它提供一系列HTTP接口来帮助我们部署、启动、停止、删除爬虫程序。Scrapyd支持版本管理,同时还可以管理多个爬虫任务,利用它我们可以非常方便地完成 Scrapy爬虫项目的部署任务调度。 Scrapyd-client Scrapyd-client是一个专门用来发布scrapy爬虫的工具,安装该程序之后会自动在python目录\scripts安装一个名为scrapyd-deploy的工具,此工具先将Scrapy项目打包成egg文件,Scrapy-client帮我们把打包过程实现了,我们不需求再去关心egg文件的怎么生成的,也不需要再去读egg文件并请求上传,只需要执行一个命令即可一键打包。 SpiderKeeper SpiderKeeper是一款管理爬虫软件,它配合scrapyd管理爬虫,支持一键式部署,定时采集任务,启动,暂停等一系列的操作,并且可以查看爬虫日志和爬虫执行情况等功能。 任务步骤 Python虚拟环境安装 安装virtualenv虚拟环境 Virtualenv虚拟环境安装和其他组件安装步骤一样都可以通过pip命令进行安装,首先进入爬虫项目文件所在的主目录,然后在PyCharm的Terminal窗口中输入图4命令安装,如果安装过程中提示升级pip包版本到10.0.1,请按图5命令升级pip包,然后再按命令安装虚拟环境。 图表 SEQ 图表 \* ARABIC 4 python虚拟环境安装命令及报错信息 图表 SEQ 图表 \* ARABIC 5图表 3 pip版本更新命令 Virtualenv运行使用 创建虚拟化环境 在PyCharm的Terminal窗口中输入图6命令,这时候便会在当前的项目中创建venv文件夹,venv为虚拟环境目录名,目录名可以自定义。 图表 6 创建虚拟化环境命令 图表 7 虚拟环境目录列表 启用虚拟环境 在PyCharm的Terminal窗口中输入图8命令,启用后在控制台有一个如图8所示带有(venv)的标志,则说明启用成功。 图表 8 启用虚拟环境 安装依赖包 在虚拟环境完成之后就可以通过命令pip install 来安装python包了,在venv的环境中,使用pip安装的包将不会再是全局性的包,只会在当前的虚拟环境中起作用,避免了影响其他项目工程的运行环境。python包安装完成后可通过图9命令来查看安装包列表。 图表 9 查看安装包命令 退出虚拟环境 如要要退出虚拟环境在控制台中输入图10命令,(venv)的标志也会消失。 图表 10 退出虚拟环境 Scrapyd安装 相关文档连接 /scrapy/scrapyd /pypi/scrapyd http://scrapyd.readthedocs.io pip安装 这里推荐使用pip安装,在PyCharm的Terminal窗口中输入图11命令: 图表 11 scrapyd安装命令

文档评论(0)

1亿VIP精品文档

相关文档