V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
WuwuGin
V2EX  ›  互联网

煎蛋被爬虫爬炸了

  •  2
     
  •   WuwuGin · 2017-10-16 12:37:38 +08:00 · 8084 次点击
    这是一个创建于 2599 天前的主题,其中的信息可能已经有所发展或是发生改变。
    昨晚到现在煎蛋后台大部分时间是瘫痪着的,因为有人在疯狂采集,连接数过多让煎蛋数据库频繁挂掉。点不了 OOXX 发不出评论 /吐槽的同学不要猜测,原因就是这个。

    至于为什么被频繁采集,这要归功于某些拿煎蛋练手还去 github 开源采集煎蛋程序的牛逼程序员们。



    原本我们是可以从服务器端屏蔽掉恶意采集,但服务器扛不住 DDOS,不得不全站 cdn,但 cdn 又等于是把静态内容贡献给恶意采集者。

    COLT 正努力从技术层面解决。请耐心等候。


    以上来自煎蛋站长 sein。
    30 条回复    2017-12-13 13:24:50 +08:00
    iShawnWang
        1
    iShawnWang  
       2017-10-16 12:54:46 +08:00 via iPhone
    这.....
    laogui
        2
    laogui  
       2017-10-16 13:01:58 +08:00 via Android
    采集不是用同一个 IP 吗?这都防不了?难道换着 IP 采集?
    Mikewu
        3
    Mikewu  
       2017-10-16 13:04:33 +08:00
    @laogui 看正文,估计是成为开源爬虫项目中的 Demo 了。
    lwbjing
        4
    lwbjing  
       2017-10-16 13:04:42 +08:00
    @laogui 文中有提到“开源采集煎蛋程序”,想像一下场景...
    jas0ndyq
        5
    jas0ndyq  
       2017-10-16 13:08:01 +08:00 via iPhone
    快了?
    takanasi
        6
    takanasi  
       2017-10-16 13:09:15 +08:00 via Android   ❤️ 1
    所以不爱写爬虫,感觉比较缺德
    zts1993
        7
    zts1993  
       2017-10-16 13:21:37 +08:00
    写个爬虫练个手,你看知乎现在登陆都要验证码了。
    oh
        8
    oh  
       2017-10-16 13:24:39 +08:00 via iPhone
    @laogui 多 IP 多线程 甚至分布式采集 不都是必备的么…
    coderluan
        9
    coderluan  
       2017-10-16 13:47:33 +08:00   ❤️ 1
    写爬虫从来只用单线程龟速爬,否则感觉自己在干缺德的事。
    yu099
        10
    yu099  
       2017-10-16 13:58:46 +08:00 via Android
    果然,我说图怎么刷不出来
    doublleft
        11
    doublleft  
       2017-10-16 13:58:51 +08:00
    猜测一下,因为我也采过,一般都是爬妹子图吧。。 既然妹子图链到的是微博图床,能不能直接开个 api
    swulling
        12
    swulling  
       2017-10-16 14:02:05 +08:00
    技术不行罢了
    deeporist
        13
    deeporist  
       2017-10-16 14:48:23 +08:00
    加油
    EricCartman
        14
    EricCartman  
       2017-10-16 14:51:06 +08:00   ❤️ 1
    重定向爬虫到开源操作系统镜像文件
    yu099
        15
    yu099  
       2017-10-16 15:02:32 +08:00 via Android
    @EricCartman 这个不错
    Sapp
        16
    Sapp  
       2017-10-16 16:09:53 +08:00
    最近知乎的爬虫教程都烂大街了,真搞不懂弄那么多爬虫是搞毛?就图个好玩?
    gamexg
        17
    gamexg  
       2017-10-16 16:23:16 +08:00   ❤️ 1
    @oh #8

    如果确认是开源爬虫问题,那么很好搞定啊。
    直接照着爬虫规则改,让爬虫无法匹配即可。

    另外虽然多 ip 分布式是爬虫常见功能,但是个人学习的话 ip 来源不会有那么多,高频率 ip 封禁或者加 js 验证、验证码验证都能够解决。
    lingo
        18
    lingo  
       2017-10-16 18:03:09 +08:00
    @swulling 个人感觉不能单纯用技术不行来说。本来以他们技术可以维持网站的的正常访问,结果这个开源项目带来大量的异常流量导致网站挂了,总不能要求每个公司都跟 BAT 一样吧。
    iFlicker
        19
    iFlicker  
       2017-10-16 18:26:45 +08:00   ❤️ 1
    老大加油, 可怜的 COLT。。。估计 colt 系列无聊图又要出了
    WordTian
        20
    WordTian  
       2017-10-16 19:28:08 +08:00 via Android
    我说怎么最近评论的时候总出问题呢
    mohoumk2
        21
    mohoumk2  
       2017-10-16 21:11:35 +08:00   ❤️ 11


    发现回复下面有个有趣的评论
    ccc008
        22
    ccc008  
       2017-10-16 21:19:45 +08:00
    爬蚱好吃
    congeec
        23
    congeec  
       2017-10-16 21:34:04 +08:00 via iPhone
    缺德
    jy02201949
        24
    jy02201949  
       2017-10-16 22:52:29 +08:00 via Android
    访问到这个量级的站也不好好考虑自身条件是否符合发展需要,当年被告也是这样不知所措
    Lentin
        25
    Lentin  
       2017-10-16 23:03:48 +08:00
    搞个 api 不就好了,还采集啥(雾
    fuxkcsdn
        26
    fuxkcsdn  
       2017-10-16 23:13:47 +08:00   ❤️ 2
    @mohoumk2 正解!上次在 V 站上看到有人“又”(为什么说又呢?你们懂的)在发布所谓牛逼的煎蛋爬虫,at 了站长也没做处理
    这边不让讨论盗版,却可以光明正大的分享偷(别说爬虫不算偷)别人数据的项目...
    zander1024
        27
    zander1024  
       2017-10-30 13:45:58 +08:00
    wbt
        28
    wbt  
       2017-10-30 14:03:17 +08:00
    。。。
    tuding
        29
    tuding  
       2017-10-30 17:28:23 +08:00
    @coderluan +1
    我也是单线程爬, 而且挂服务器上, 避开高峰时间
    Jayce245
        30
    Jayce245  
       2017-12-13 13:24:50 +08:00
    你要是说练个手爬几张图片看看是不是正确也就算了,无限制爬取的确挺缺德的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5174 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 09:43 · PVG 17:43 · LAX 01:43 · JFK 04:43
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.