为什么要用分布式爬虫

学习爬虫已经有一段时间了,之前的爬虫都是一个python文件就实现的,没考虑性能,效率之类的。所以作为一个合格的spider,需要学习一下分布式爬虫。

什么分布式爬虫?简单地说就是用多台服务器去获取数据,让这些服务器去协同,分配各自的任务。

分布式爬虫设计

最常用的一种就是主从分布式爬虫,本文将使用Redis服务器来作为任务队列。

如图:

准备工作

安装python3和Redis

安装requests与Redis相关的库

pip install requests

pip install pyquery

pip install redis

代码

主函数(master.py)

从函数(salver.py)


本文转载:CSDN博客