V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
shawnleo
V2EX  ›  程序员

如何爬取淘宝商品图片

  •  
  •   shawnleo · 313 天前 · 2932 次点击
    这是一个创建于 313 天前的主题,其中的信息可能已经有所发展或是发生改变。

    想通过淘宝商品图构建一个数据集,直接用 selenium 爬会被封 ip 吗?大家有啥好办法吗?

    24 条回复    2023-06-20 17:24:09 +08:00
    xieqiqiang00
        1
    xieqiqiang00  
       313 天前
    不可能的,别想了
    shawnleo
        2
    shawnleo  
    OP
       313 天前
    我看有说用淘宝客 api 的?
    asmoker
        3
    asmoker  
       313 天前
    建议咨询梁博 😄
    lhbc
        4
    lhbc  
       313 天前 via Android   ❤️ 1
    这两个地址有不少高人,经验丰富,可以去找他们问一下

    深圳市坪山区石井街道金田路 200 号
    杭州市余杭区临平镇丘山大街 3 号
    xiqishow
        5
    xiqishow  
       313 天前
    @lhbc #4 里面的人说话都好听
    lithiumii
        6
    lithiumii  
       313 天前 via Android
    啥数量级?几百上千 selenium 没啥问题,拿自己真的在用的帐号登录都行
    zictos
        7
    zictos  
       313 天前
    淘宝联盟 api 应该可以,只要开通了推广的商家应该都可以
    bruce0
        8
    bruce0  
       313 天前
    就淘宝那反扒, 基本别想了🐶
    caesar
        9
    caesar  
       313 天前
    现成的电商插件 都有啊 为啥还要自己开发
    vus520
        10
    vus520  
       313 天前
    如果只是做数据集,不用大面积更新的话,难度不大。解决阿爸的律师团队就行。
    Sh4ww
        11
    Sh4ww  
       313 天前
    只是采集图片的话,其实淘宝有很多无风控的接口,可以找找看
    opengps
        12
    opengps  
       313 天前
    电商起家的反扒能力可是第一,你要跟第一较劲,可是个相当难得事情了
    LandCruiser
        13
    LandCruiser  
       313 天前
    @asmoker 梁博就是爬阿里被告的呀
    shawnleo
        14
    shawnleo  
    OP
       313 天前
    是否可以通过淘宝客 api 或者淘宝开放平台获取呢?除了淘宝,其他的像小红书或者亚马逊之类的有可行性吗?
    streamrx
        15
    streamrx  
       313 天前 via iPhone
    别想了
    tw93
        16
    tw93  
       313 天前
    面向监狱编程?
    akira
        17
    akira  
       313 天前
    直接买别人采集好的
    li746224
        18
    li746224  
       312 天前
    可以的,前提有可用 ip 池。
    按照我们的经验跑列表接口的话,封控严的时候换一个店铺出一次滑块。用详情接口的话,基本可以不用考虑,10 几次出一个滑块吧。
    如果用 rpa 的话,你得有 n 多账号,封控不严,就算出滑块也可以自动划过去。
    最后,希望你们公司有牛逼的法务
    PVXLL
        19
    PVXLL  
       312 天前 via iPhone
    可能会吃牢饭
    weeiy
        20
    weeiy  
       312 天前
    吊淘宝正常访问都给你弹验证,你还用脚本去爬他?真送人头啊?
    imnpc
        21
    imnpc  
       312 天前
    花钱买 API ,有专门的正规的 API ,不要自己尝试采集,正常访问刷新 3 次就有可能让你滑动解锁
    lmw2616
        22
    lmw2616  
       312 天前
    好单库的开放 api 里面有,几年前用过,不知道现在还能用不,你去看看
    lmw2616
        23
    lmw2616  
       312 天前
    @lmw2616 淘宝单品详情
    godleon
        24
    godleon  
       312 天前
    如果你的爬虫还建立在用 webdriver selenium 这种爬虫层面,就先别搞阿里了。
    需要先熟悉别人的反爬规则,然后绕开风控。才能实现你所说的功能
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1869 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 16:16 · PVG 00:16 · LAX 09:16 · JFK 12:16
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.