scrapy 的 start_urls 为多个的时候，它工作的时候，就会开启多个线程吗

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

这是一个创建于 2987 天前的主题，其中的信息可能已经有所发展或是发生改变。

爬虫根据 start_urls 去爬页面，然后对返回的结果处理，如果有 10 个 start_urls ，他是 10 个网址同时去访问，获得结果，然后 10 个同时处理吗， 10 个线程再各自处理自己的结果里的信息吗

感觉如果是一个线程的话，那难道是一个一个的访问，然后等完全处理掉了其中一个 start_urls 以及其后续结果里的内容，才会去处理第二个 start_urls 吗

3 条回复

junnplus

2016-03-14 10:12:11 +08:00 via Android

可以看下源碼，我記得是 yield

qq5745965425

2016-03-14 10:22:13 +08:00

@junnplus 谢谢，确实有个 yield ，但是我不知道他的原理，是不是这个 yield 可以把对应数据推送到某个队列，然后会有专门的一个 worker 来消费这个队列呢，而 yield 负责把对应内容装入队列，请问是这样吗

junnplus

2016-03-14 17:01:45 +08:00