V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
ssllff123
V2EX  ›  问与答

scrapy 如何多开

  •  
  •   ssllff123 · 2016-09-12 14:53:51 +08:00 · 2006 次点击
    这是一个创建于 3001 天前的主题,其中的信息可能已经有所发展或是发生改变。

    用 scrapy 爬几百万的 url ,现在开一个 scrapy 效率有点慢。

    考虑如何多开几个 scrapy ,通过分割队列来运行。

    现在遇到的情况是 复制原来项目,修改 spider 名字以及 setting 部分设置。 运行报错找不到 spider

    仅仅复制原来项目,修改队列。 发现还是原来的 spider

    请大家指教下,如何通过分割队列运行 scarpy

    6 条回复    2016-09-12 19:05:31 +08:00
    laoyur
        1
    laoyur  
       2016-09-12 15:18:32 +08:00
    把这几百万 url 扔到 redis 里,让爬虫自己来取?
    BiggerLonger
        2
    BiggerLonger  
       2016-09-12 16:08:22 +08:00
    試一下把線程數開高一點
    facat
        3
    facat  
       2016-09-12 16:16:06 +08:00 via Android
    爬虫是受网络 i/o 影响大,多开不见得有效果
    neosfung
        4
    neosfung  
       2016-09-12 16:27:56 +08:00
    mrytsr
        5
    mrytsr  
       2016-09-12 17:57:05 +08:00 via Android
    分级的话 内部自动通过 协程多开
    ssllff123
        6
    ssllff123  
    OP
       2016-09-12 19:05:31 +08:00
    好吧 。发现多开并没有提高多少效率。现在能提高效率的应该就是 redis 了。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1080 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 18:51 · PVG 02:51 · LAX 10:51 · JFK 13:51
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.