V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
goodluck
V2EX  ›  问与答

新浪微博爬虫老是被封,换了 IP 和 cookie 也不行

  •  
  •   goodluck · 2016-04-14 10:18:15 +08:00 · 9161 次点击
    这是一个创建于 2934 天前的主题,其中的信息可能已经有所发展或是发生改变。

    这几天抓取新浪微博,每个请求随机一个代理,每半小时换一个账号,过了几个小时,立马几十个账号被冻结。很郁闷。。。有高手知道怎么对付新浪微博的反爬虫么?

    19 条回复    2016-04-14 22:12:58 +08:00
    bzzhou
        1
    bzzhou  
       2016-04-14 10:28:20 +08:00
    > 每个请求随机一个代理,每半小时换一个账号

    这种请求不封你才怪
    shiny
        2
    shiny  
       2016-04-14 10:29:35 +08:00
    抓的是 m.weibo.cn 还是 weibo.com
    CheungKe
        3
    CheungKe  
       2016-04-14 10:38:29 +08:00
    放慢速度。
    看 robots.txt ,你这么做是违法的
    ksc010
        4
    ksc010  
       2016-04-14 10:43:06 +08:00
    @bzzhou 是啊别换代理 减慢速度 一个帐号固定使用一个代理就行
    每请求 n 次就暂停几个小时 然后换下一批帐号
    hcwhan
        5
    hcwhan  
       2016-04-14 10:56:57 +08:00 via Android
    主要还是每个账号一直换 ip 的问题吧 可以抓几次后 换账号的同时换 ip 每个账号 ip 不换
    mfinal
        6
    mfinal  
       2016-04-14 11:03:38 +08:00   ❤️ 1
    经验之谈(仅针对 mobile 版):
    微博的反爬虫还是很厉害的(阈值为:人点的太快都会 /sad )
    高速状态下(多线程)数分钟就挂,低速的话(几秒 per resquest )一个账号可以持续数小时。
    还是多账号延长冷却吧~

    还是等高手作答
    mapleray
        7
    mapleray  
       2016-04-14 11:39:43 +08:00   ❤️ 2
    告诉一个最简单的方法,用 google bot 的 header,频率控制好就行
    UnisandK
        8
    UnisandK  
       2016-04-14 12:15:34 +08:00
    同一个账号一直换 IP 你这不作死吗
    badcode
        9
    badcode  
       2016-04-14 12:17:13 +08:00
    @mapleray 想起也是*度,谷歌,屏蔽它们的 UA(spider),

    它们会用"正常"的 UA 看一下,然后再用 spider 走一遍

    看日志看 ip 知道的
    goodluck
        10
    goodluck  
    OP
       2016-04-14 13:19:07 +08:00
    @shiny 我抓的是 weibo.com
    goodluck
        11
    goodluck  
    OP
       2016-04-14 13:20:09 +08:00
    @CheungKe 感谢您,爬虫违法的这东西太虚,我不担心这个。
    goodluck
        12
    goodluck  
    OP
       2016-04-14 13:20:56 +08:00
    @ksc010 我是每天计划抓 20 万用户的信息,慢速的不行,速度必须要快
    goodluck
        13
    goodluck  
    OP
       2016-04-14 13:21:34 +08:00
    @hcwhan 好的,我试试您的方法。
    goodluck
        14
    goodluck  
    OP
       2016-04-14 13:24:30 +08:00
    @mfinal 是的,我现在根据这几天的经验,猜测的是新浪的反爬虫不是实时的,没过 2 个小时左右的频率,新浪就会封一批账号,现在我在测是新浪的规则,目前来看,换代理的原因比较小,因为前几天我用一个账号不换代理也是 game over.
    goodluck
        15
    goodluck  
    OP
       2016-04-14 13:26:03 +08:00
    @mapleray 感谢您的建议,第一次听说这个东西,我会尝试的。
    goodluck
        16
    goodluck  
    OP
       2016-04-14 13:27:20 +08:00
    @badcode 厉害,这你都看得见。。。
    msg7086
        17
    msg7086  
       2016-04-14 13:29:58 +08:00
    虽然可能性并不大,但是违规爬虫的话人家完全可以挖掘出你个人信息然后按照网络攻击什么的来起诉你。
    theFool
        18
    theFool  
       2016-04-14 16:50:15 +08:00
    最近也在爬微博, 很好奇 lz 代理是怎么来的。
    我在网上找到的代理都被封了。
    如果方便的话能指点下关键词吗。 谢谢。:)
    goodluck
        19
    goodluck  
    OP
       2016-04-14 22:12:58 +08:00
    @shiny 请问你用的手机端,能不被封么?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2740 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 15:27 · PVG 23:27 · LAX 08:27 · JFK 11:27
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.