摘要:
scrapy_redis组件去重掉url settings.py # 去重类 # DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter' scrapy_redis组件默认的自带的的类 DUPEFILTER_CLASS = 'xdb.dup 阅读全文
摘要:
组件以及执行流程 -引擎找到要执行爬虫,并执行爬虫的start_requests 方法, 并得到一个迭代器。 -迭代器循环时会获取Request对象,而Request对象中封装了要访问的URL和回调函数。 -将所有的Request对象(任务)放到调试器中,用于以后被下载器下载 -下载器云调试器中获取 阅读全文