- 1
- 0
- 约小于1千字
- 约 37页
- 2023-08-16 发布于江苏
- 举报
基于分布式爬虫的信安技术文章搜索引擎;技术选型
实现细节
系统展示;1 技术选型;1.1 爬虫方式(Scrapy);1.2 数据存储(MySQL);1.3 分布式爬虫(Redis);1.4 搜索引擎;1.5 可视化搭建(Django);2 实现细节;2.1 处理反爬;2.1.1 更换随机User-Agent;2.1.2 使用IP代理池;2.1.3 访问频率限制;2.1.4 Cookie的禁用;2.1.5 验证码识别;2.2 抓取数据;2.2.1 先知社区;2.2.2 安全客;2.2.3 嘶吼;2.3 重构分布式爬虫;2.3.1 需要解决的问题;2.3.2 分布式的原理
(1)把自己的核心服务器称为master,而把用于跑爬虫程序的机器称为slave。;2.3.2 分布式的原理;2.3.3 分布式的实现
(1)使用两台机器,一台是win10(本机),一台是(ubuntu),分别在两台机器上部署scrapy来进行分布式抓取一个网站;2.3.4 展示分布式;2.4 搜索引擎;2.4.1 倒排索引;2.4.2 排序评分;2.4.3 搜索提示;2.4.4 模糊搜索;2. 5 网页搭建;2.5.1 爬虫统计数据;2.5.2 热门搜索;2.6 其他技术;2.6.1 URL去重策略;集成Bloom Filter到分布式爬虫中
原创力文档

文档评论(0)