使用scrapy,redis,mongodb实现的一个分布式网络爬虫.pdf

下载文档

3
0
约5.27千字
约 5页
2017-08-23 发布于湖北
举报
版权申诉
保障服务

使用scrapy,redis,mongodb实现的一个分布式网络爬虫.pdf

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

使用scrapy,redis,mongodb实现的一个分布式网络爬虫

自己豆瓣读书电影音乐同城小组阅读豆瓣FM 更多提醒 2 豆邮(26) 小白狼的帐号豆藤　　　　　　　我的音乐音乐人排行榜分类浏览豆瓣电台我的小组发现小组发现话题⼩组、话题使用scrapy,redis,mongodb实现的一个分布式网络爬虫来自: 远航 2013-04- 17 22:25:56 Python编程使用scrapy ,redis, mongodb,graphite实现的一个分布式网络爬虫,底层存储mongodb集 32803 人聚集在这个小组群,分布式使用redis实现, 爬虫状态显示使用graphite实现。 Python和其他动态编程语言的使用者和感兴趣的人请进。 Python是豆瓣的这是项目的地址:https :///gnemoug/distribute_crawler.git 主要开发语言。欢迎在这儿讨论... 这个工程是我对垂直搜索引擎中分布式网络爬虫的探索实现，它包含一个针加入小组对/ 网站的spider ，将其网站的书名，作者，书籍封面图片，书籍概要，原始网址链接，书籍下载信息和书籍爬取到本地：最新话题 ( 更多 ) 分布式使用redis实现，redis 中存储了工程的request ，stats信息，能够对各个机器上的初学求助····求方法····求建议····感... (吃草莓的HO~HO) 爬虫实现集中管理，这样可以解决爬虫的性能瓶颈，利用redis 的高效和易于扩展能够轻松实现高效率下载：当redis存储或者访问速度遇到瓶颈时，可以通过增大redis集群数和爬虫图像处理，数学基础知识不够啊，大牛如何办啊 (Valley. He) 集群数量改善。底层存储实现了两种方式：《大规模web服务开发技术》 (like_ python) 将书名，作者，书籍封面图片文件系统路径，书籍概要，原始网址链接，书籍下载豆瓣在python和ruby之间为何选择前者？ (老董) 信息，书籍文件系统路径保存到mongodb 中，此时mongodb使用单个服务器,对图片采用图片的url的hash值作为文件名进行存储，同时可以定制生成各种大小尺寸的缩略图，对文件无节操招聘贴...招到人我就有妹子了 (害人不浅的蛇) 动态获得文件名，将其下载到本地，存储