Scrapy-redis介绍

Author: Wenng Date: May 26, 2018 15:33:40 Category: 数据库

什么是scrapy_redis？**

基于redis组件。

为什么要学习scrapy_redis？

scrapy_redis在scrapy的基础上实现了更多，更强大的功能，具体体现在：request去重，爬虫持久化，和轻松实现分布式

去重：不单单是当前的去重，而且是我们只要是部分文件存在，可以达到持久化去重，第二次运行不会抓取第一次运行爬取过得url地址。
增量式爬虫：爬过的地址不在爬取。

回顾scrapy的爬虫流程：

Scrapy_redis流程：

如果有多台电脑公用一个redis，

scrapy抓取过的url就不会再抓了，

存入url地址之间会做一个去重，他是给每个request对象生成一个指纹(唯一标记request对象)。

Author: Wenng

Slogan: Do you believe in DESTINY?

Tag(s): # Redis # Python # 爬虫

back · home