V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ifsclimbing
V2EX  ›  互联网

美团的反爬虫太厉害了,各种下毒😭

  •  
  •   ifsclimbing · 2021-07-05 10:42:08 +08:00 · 13001 次点击
    这是一个创建于 997 天前的主题,其中的信息可能已经有所发展或是发生改变。
    第 1 条附言  ·  2021-07-09 18:22:57 +08:00
    还是要逆向 app 啊
    43 条回复    2021-07-07 12:53:06 +08:00
    Jwyt
        1
    Jwyt  
       2021-07-05 10:44:33 +08:00
    具体说下?
    lawsiki
        2
    lawsiki  
       2021-07-05 10:45:43 +08:00
    具体说下?
    Jooooooooo
        3
    Jooooooooo  
       2021-07-05 10:52:02 +08:00
    大公司都是一个大团队专门搞这个
    youngce
        4
    youngce  
       2021-07-05 10:57:13 +08:00
    给美团点赞,最近烦死爬虫了
    leido
        5
    leido  
       2021-07-05 10:58:22 +08:00
    @youngce 美团自己也爬别人
    youngce
        6
    youngce  
       2021-07-05 11:00:27 +08:00
    @leido #5 那就只给美团反爬的团队点赞
    Cyen
        7
    Cyen  
       2021-07-05 11:04:30 +08:00
    没有具体的了?
    ifsclimbing
        8
    ifsclimbing  
    OP
       2021-07-05 11:25:53 +08:00
    @lawsiki
    @Jwyt
    @Cyen

    比如商品的销量
    no1xsyzy
        9
    no1xsyzy  
       2021-07-05 13:16:11 +08:00
    @youngce 正因为别人反爬技术强,导致反反爬技术越来越强。
    假设一个几乎没有人会反爬的世界,那是不是你会点基础的反爬就能把所有爬虫拦截在外了?
    所以好像你也不该感谢反爬团队(
    kidult
        10
    kidult  
       2021-07-05 14:26:16 +08:00   ❤️ 2
    正常的用户都跟贼一样防着,别说爬虫了
    photon006
        11
    photon006  
       2021-07-05 14:27:28 +08:00
    用 puppetee 去爬,很难反的,只是比单纯接口调用效率低些,占用更多内存。
    arthas2234
        12
    arthas2234  
       2021-07-05 14:29:50 +08:00
    矛和盾的关系,打不过就加入
    paradoxs
        13
    paradoxs  
       2021-07-05 14:33:31 +08:00   ❤️ 1
    其实美团完全可以直接让法务部处理的,还是太善良了。
    paradoxs
        14
    paradoxs  
       2021-07-05 14:34:08 +08:00
    最最最最基础的来说,爬虫消耗了服务器额外的资源,这些都是白花花的钱。
    ifsclimbing
        15
    ifsclimbing  
    OP
       2021-07-05 14:42:04 +08:00
    TomVista
        16
    TomVista  
       2021-07-05 15:13:27 +08:00
    面向牢饭编程.dog
    zhengfan2016
        17
    zhengfan2016  
       2021-07-05 15:17:58 +08:00
    饿了么?
    zocome
        18
    zocome  
       2021-07-05 15:21:04 +08:00
    @kidult #10 淘宝:有被冒犯到
    ifsclimbing
        19
    ifsclimbing  
    OP
       2021-07-05 15:22:21 +08:00
    @zhengfan2016 饿了么没美团难
    ifsclimbing
        20
    ifsclimbing  
    OP
       2021-07-05 15:22:36 +08:00
    @zocome 没试过淘宝
    akira
        21
    akira  
       2021-07-05 15:28:55 +08:00
    只要普通用户可以正常访问,就一定有方案可以爬
    pwelyn
        22
    pwelyn  
       2021-07-05 15:34:52 +08:00
    道高一尺 魔高一丈 继续做对抗
    ifsclimbing
        23
    ifsclimbing  
    OP
       2021-07-05 15:35:24 +08:00
    @akira 是的,就是成本问题
    littlewing
        24
    littlewing  
       2021-07-05 15:59:10 +08:00
    之前看过一个帖子,数字部分用字体做反扒的
    Zhancha
        25
    Zhancha  
       2021-07-05 16:18:35 +08:00   ❤️ 1
    @no1xsyzy 你这逻辑是典型的 zz 逻辑,如果没有黑客是不是所有的系统就安全了。
    zjmdp
        26
    zjmdp  
       2021-07-05 18:00:43 +08:00
    我只知道用 selenium 爬淘宝,滑块验证怎么都过不去,哪位大神有办法请赐教,感激不尽
    yangyifan
        27
    yangyifan  
       2021-07-05 18:01:23 +08:00
    @zjmdp chromeDriver 的 特征 修改了吗?
    zjmdp
        28
    zjmdp  
       2021-07-05 18:19:32 +08:00
    @yangyifan 是下面两个设置吗?
    options.add_experimental_option('excludeSwitches', ['enable-automation'])
    options.add_argument("disable-blink-features=AutomationControlled")
    zjmdp
        29
    zjmdp  
       2021-07-05 18:20:30 +08:00
    @yangyifan 还有下面这段
    self.driver.execute_cdp_cmd(
    "Page.addScriptToEvaluateOnNewDocument",{
    "source":'''
    Object.defineProperty(navigator,'webdriver',{
    get: () => undefined
    })
    '''
    }
    )
    Cielsky
        30
    Cielsky  
       2021-07-05 19:15:24 +08:00
    @no1xsyzy 什么逻辑啊,反爬技术强说明他们爬虫技术也强啊。
    no1xsyzy
        31
    no1xsyzy  
       2021-07-06 00:35:33 +08:00
    @Zhancha 没有被我绕进去,这很好;但是缺乏一些专(bī)业(gé)性。
    coolmenu
        32
    coolmenu  
       2021-07-06 07:10:49 +08:00
    用人力分布式爬虫怎么样,外包给 10 万个印度人,没人 100 个页面。。
    Canace
        33
    Canace  
       2021-07-06 09:28:56 +08:00
    具体说下?
    karatsuba
        34
    karatsuba  
       2021-07-06 10:15:11 +08:00
    @coolmenu 龟龟,每人给一快钱也十万了
    ifsclimbing
        35
    ifsclimbing  
    OP
       2021-07-06 12:37:41 +08:00
    @coolmenu 好办法
    yangyifan
        36
    yangyifan  
       2021-07-06 12:40:16 +08:00
    @zjmdp 不不不, 还需要编译 chromedriver 的 源码 才可以解决。比如使用 chromedriver 浏览器 就会有这个 window.cdc_adoQpoasnfa76pfcZLmcfl_Array 属性。其实还有其他很多坑。自己慢慢去摸索吧。不止是 chromedriver,不管是无头还是有头的模式,如果没好好研究 chromium 代码,很容易就被发现。
    ifsclimbing
        37
    ifsclimbing  
    OP
       2021-07-06 13:38:16 +08:00
    @yangyifan 头大
    zjmdp
        38
    zjmdp  
       2021-07-06 17:41:12 +08:00
    @yangyifan 我是按网上的写法,直接二进制替换了字符串,看来坑不止这些。
    ml1344677
        39
    ml1344677  
       2021-07-06 19:05:52 +08:00
    曾经爬某网站,返回结果是一个不定长坐标 list,可以组成封闭图形。当触发反爬后,反爬也不屏蔽你 ip,也不返回空数据,,直接把这个 list 给乱序。。。导致每次还需要消耗资源检测是否组成封闭图形。 稳定运行了 2 天才发现。。总 list 保守估计上 10 亿计。
    HashV2
        40
    HashV2  
       2021-07-07 09:45:11 +08:00
    @youngce #6 反爬团队和爬虫团队可能是同一拨人
    TheBestSivir
        41
    TheBestSivir  
       2021-07-07 10:43:56 +08:00
    美团的反爬是专门的一个团队,属于整个集团的基础产品,是 nginx 层做了一层,做的产品好像叫 MTSI
    起码在美团外卖,很早就不搞爬虫了爬别人了
    ifsclimbing
        42
    ifsclimbing  
    OP
       2021-07-07 11:06:36 +08:00
    @TheBestSivir 美团厉害
    yangyifan
        43
    yangyifan  
       2021-07-07 12:53:06 +08:00
    @zjmdp 肯定的,要是有 那么简单,就不会被反爬了。自己去琢磨一下源码吧,会有很多很多地方值得去研究的。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1062 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 39ms · UTC 18:58 · PVG 02:58 · LAX 11:58 · JFK 14:58
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.