摘要: scrapy_redis组件去重掉url settings.py # 去重类 # DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter' scrapy_redis组件默认的自带的的类 DUPEFILTER_CLASS = 'xdb.dup 阅读全文
posted @ 2020-06-14 23:22 高汤 阅读(513) 评论(0) 推荐(0) 编辑
摘要: 组件以及执行流程 -引擎找到要执行爬虫,并执行爬虫的start_requests 方法, 并得到一个迭代器。 -迭代器循环时会获取Request对象,而Request对象中封装了要访问的URL和回调函数。 -将所有的Request对象(任务)放到调试器中,用于以后被下载器下载 -下载器云调试器中获取 阅读全文
posted @ 2020-06-14 15:48 高汤 阅读(217) 评论(0) 推荐(0) 编辑