V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
shawnleo
V2EX  ›  程序员

如何爬取淘宝商品图片

  •  
  •   shawnleo · 2023-06-19 11:24:14 +08:00 · 3287 次点击
    这是一个创建于 548 天前的主题,其中的信息可能已经有所发展或是发生改变。

    想通过淘宝商品图构建一个数据集,直接用 selenium 爬会被封 ip 吗?大家有啥好办法吗?

    24 条回复    2023-06-20 17:24:09 +08:00
    xieqiqiang00
        1
    xieqiqiang00  
       2023-06-19 11:34:32 +08:00
    不可能的,别想了
    shawnleo
        2
    shawnleo  
    OP
       2023-06-19 12:16:39 +08:00
    我看有说用淘宝客 api 的?
    asmoker
        3
    asmoker  
       2023-06-19 13:26:22 +08:00
    建议咨询梁博 😄
    lhbc
        4
    lhbc  
       2023-06-19 13:39:09 +08:00 via Android   ❤️ 1
    这两个地址有不少高人,经验丰富,可以去找他们问一下

    深圳市坪山区石井街道金田路 200 号
    杭州市余杭区临平镇丘山大街 3 号
    xiqishow
        5
    xiqishow  
       2023-06-19 13:53:43 +08:00
    @lhbc #4 里面的人说话都好听
    lithiumii
        6
    lithiumii  
       2023-06-19 14:07:28 +08:00 via Android
    啥数量级?几百上千 selenium 没啥问题,拿自己真的在用的帐号登录都行
    zictos
        7
    zictos  
       2023-06-19 14:13:57 +08:00
    淘宝联盟 api 应该可以,只要开通了推广的商家应该都可以
    bruce0
        8
    bruce0  
       2023-06-19 14:16:41 +08:00
    就淘宝那反扒, 基本别想了🐶
    caesar
        9
    caesar  
       2023-06-19 14:20:04 +08:00
    现成的电商插件 都有啊 为啥还要自己开发
    vus520
        10
    vus520  
       2023-06-19 14:24:35 +08:00
    如果只是做数据集,不用大面积更新的话,难度不大。解决阿爸的律师团队就行。
    Sh4ww
        11
    Sh4ww  
       2023-06-19 16:46:16 +08:00
    只是采集图片的话,其实淘宝有很多无风控的接口,可以找找看
    opengps
        12
    opengps  
       2023-06-19 16:51:18 +08:00
    电商起家的反扒能力可是第一,你要跟第一较劲,可是个相当难得事情了
    LandCruiser
        13
    LandCruiser  
       2023-06-19 17:11:24 +08:00
    @asmoker 梁博就是爬阿里被告的呀
    shawnleo
        14
    shawnleo  
    OP
       2023-06-19 17:22:33 +08:00
    是否可以通过淘宝客 api 或者淘宝开放平台获取呢?除了淘宝,其他的像小红书或者亚马逊之类的有可行性吗?
    streamrx
        15
    streamrx  
       2023-06-19 20:06:40 +08:00 via iPhone
    别想了
    tw93
        16
    tw93  
       2023-06-19 21:05:08 +08:00
    面向监狱编程?
    akira
        17
    akira  
       2023-06-19 22:22:42 +08:00
    直接买别人采集好的
    li746224
        18
    li746224  
       2023-06-20 08:57:11 +08:00
    可以的,前提有可用 ip 池。
    按照我们的经验跑列表接口的话,封控严的时候换一个店铺出一次滑块。用详情接口的话,基本可以不用考虑,10 几次出一个滑块吧。
    如果用 rpa 的话,你得有 n 多账号,封控不严,就算出滑块也可以自动划过去。
    最后,希望你们公司有牛逼的法务
    PVXLL
        19
    PVXLL  
       2023-06-20 09:20:04 +08:00 via iPhone
    可能会吃牢饭
    tLbf2p3UC4BM3H1N
        20
    tLbf2p3UC4BM3H1N  
       2023-06-20 10:12:05 +08:00
    吊淘宝正常访问都给你弹验证,你还用脚本去爬他?真送人头啊?
    imnpc
        21
    imnpc  
       2023-06-20 11:21:37 +08:00
    花钱买 API ,有专门的正规的 API ,不要自己尝试采集,正常访问刷新 3 次就有可能让你滑动解锁
    lmw2616
        22
    lmw2616  
       2023-06-20 11:43:38 +08:00
    好单库的开放 api 里面有,几年前用过,不知道现在还能用不,你去看看
    lmw2616
        23
    lmw2616  
       2023-06-20 11:46:00 +08:00
    @lmw2616 淘宝单品详情
    godleon
        24
    godleon  
       2023-06-20 17:24:09 +08:00
    如果你的爬虫还建立在用 webdriver selenium 这种爬虫层面,就先别搞阿里了。
    需要先熟悉别人的反爬规则,然后绕开风控。才能实现你所说的功能
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1159 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 23:08 · PVG 07:08 · LAX 15:08 · JFK 18:08
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.