V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
callmejoejoe
9.41D
V2EX  ›  程序员

请教爬虫代理方案,成本太高了!

  •  
  •   callmejoejoe ·
    callmejoejoe · 2024-09-29 11:05:47 +08:00 · 5928 次点击
    这是一个创建于 365 天前的主题,其中的信息可能已经有所发展或是发生改变。
    想做亚马逊爬虫,用国内隧道代理和国外动态数据中心 IP 、动态住宅 IP 进行了测试:
    国外动态住宅 IP 最优,但价格最贵;
    国外动态数据中心 IP 也可以,但价格也贵,普遍是 8 元/1GB ,这样我的成本是 0.004 元/1page ,成熟竞品售价是 0.001 元/1page ,哪怕是 2 元,我的成本也跟竞品的销售价一样!根本赚不了钱。

    还是说我需要考虑整体盈利模式?成熟竞品的收费模式大概是:
    1. 基本会员:几十元一个月,可以查询数据,不可以爬取数据。
    2. 付费购买流量进行爬取:98 元,可爬 10w 数据,0.001 元/1page ,每天最高可爬 10w 。

    对此我的理解是:让用户付费购买爬取,爬取的数据更新到数据库,这部分数据也可以通过会员费来实现一部分盈利。但我感觉数据肯定是要达到一定量才能收费,否则用户开了会员能查的数据不多,就没意义了。所以一开始只能做爬取,所以要想盈利,就只能考虑如何降低流量成本?
    也测试了快代理的国内隧道代理,偶尔能爬,昨天下午爬了 1500 页也没事,但是晚上就彻底不行了,各种重定向、响应超时,但是换国外 IP 就没问题。

    疑问:
    1. 有没有便宜的国外 IP 代理方案呢?
    2. 国内 IP 为什么爬不了,用了 Playwright 作为下载中间件也不行,难道国内 IP 容易被亚马逊反爬虫识别?
    3. 还是说我应该放弃这个爬虫方案?我看有些竞品是让用户自己电脑本地爬,但这样太慢了!但开发简单点,爬虫还要弄集群,负载均衡,数据量大了感觉数据库也是个问题,这方面都没做过,头大。

    爬虫新手,希望有大佬能解解惑,感激不尽!
    33 条回复    2024-11-14 19:20:07 +08:00
    viking602
        1
    viking602  
       2024-09-29 11:15:36 +08:00   ❤️ 1
    我们两套方案 一套是用机场 后端不断自动切换 IP 还有一套就是买数据中心代理 买了很多家 然后做负载均衡轮训
    MFWT
        2
    MFWT  
       2024-09-29 11:19:44 +08:00   ❤️ 2
    国内 IP 毕竟还是会涉及到过墙问题,卡顿慢很正常
    做大的那些主要还是靠量来堆,以及提高代理 IP 重用率,用各种来源的 IP (甚至有不光彩的手段,比如盗用家宽),等等
    qsnow6
        3
    qsnow6  
       2024-09-29 11:23:11 +08:00   ❤️ 2
    2 楼说的对,业内大玩家基本都是通过肉鸡降成本的,这不是常规技术手段能解决的问题。
    callmejoejoe
        4
    callmejoejoe  
    OP
       2024-09-29 11:26:08 +08:00
    @viking602 机场我也想到了,晚点试一试;数据中心的代理是包月吗还是按量?感觉对我这一个人瞎搞的成本还是太高了😂
    callmejoejoe
        5
    callmejoejoe  
    OP
       2024-09-29 11:27:56 +08:00
    @MFWT
    @qsnow6
    好吧,我说他们成本怎么那么便宜,看来这比我想象中的复杂多了
    viking602
        6
    viking602  
       2024-09-29 12:34:45 +08:00   ❤️ 1
    @callmejoejoe #4 数据中心代理这个都有 主要是找相对便宜的
    yunlongV
        7
    yunlongV  
       2024-09-29 12:48:04 +08:00
    一般动态住宅 IP 都有无限制流量套餐,大概$200 一天,有并发数和总带宽限制。按照流量买的越多越便宜,一般在$0.8/gb 左右,还是推荐买动态住宅 IP 。
    laiyibeimeishi
        8
    laiyibeimeishi  
       2024-09-29 12:57:23 +08:00   ❤️ 1
    看看 ipv6 呢?
    zqqzqq
        9
    zqqzqq  
       2024-09-29 13:06:06 +08:00
    NoOneNoBody
        10
    NoOneNoBody  
       2024-09-29 13:45:50 +08:00
    开 100 个 tor
    xcsoft
        11
    xcsoft  
       2024-09-29 14:01:15 +08:00   ❤️ 1
    可以试试 ipv6, 有些服务商的服务器 v6 都是给整个段的 还不贵

    但是不懂 ISP 的 ip 会不会有影响
    Ritter
        12
    Ritter  
       2024-09-29 14:09:50 +08:00
    op 代理 IP 哪家买的 可以推荐一下吗
    aru
        13
    aru  
       2024-09-29 14:24:29 +08:00
    aws 、digitalocean 、linode 这些 ip 能不能爬?
    他们的都可以很容易的换 IP
    比如用 aws ,可以创建一个实例负责调度和数据库
    其他的用 spot 实例,下载流量不算钱,同一个区域内的流量也是免费的
    Kinnice
        14
    Kinnice  
       2024-09-29 14:28:01 +08:00   ❤️ 1
    别拿一个 IP 连续爬,分布负载均衡一下。
    callmejoejoe
        15
    callmejoejoe  
    OP
       2024-09-29 14:32:21 +08:00
    @viking602 好的谢谢
    @yunlongV 对个人来说还是太贵了
    @laiyibeimeishi ipv6 不知道可不可行,晚点试试
    @NoOneNoBody tor 是啥?
    callmejoejoe
        16
    callmejoejoe  
    OP
       2024-09-29 14:38:26 +08:00
    @Ritter 我还没买,有些提供免费测试的
    @Kinnice 目前只是用代理的 api 返回的 ip 直接随机爬
    @aru 感觉不可行啊,换 ip 的操作不麻烦吗?
    aru
        17
    aru  
       2024-09-29 15:27:18 +08:00
    @callmejoejoe
    可以通过 api 操作
    hujnnn
        18
    hujnnn  
       364 天前
    亚马逊卖家, 他们基本都是用卖家精灵这些非常专业的工具.

    你需要考虑你的用户是谁? 国内的卖家么, 他们都很抠的希望能白嫖.

    如果你的目标用户是国外的卖家, 他们的付费意愿还是比较强的, 但你需要解决如何获取流量并转化流量.
    callmejoejoe
        19
    callmejoejoe  
    OP
       364 天前
    @aru 不是做后端的,看了一下文档挺复杂的,留作后备计划后续再了解了😂

    @hujnnn 流量转化这些问题是后面的事了,😂目前得先把这个可行性问题解决了
    vicv
        20
    vicv  
       364 天前 via iPhone
    大佬国外的隧道代理在用哪家?我也参考一下
    ns09005264
        21
    ns09005264  
       364 天前   ❤️ 1
    我不了解爬虫代理的 IP 需求量是多少,不过我上个月做过类似的事,用的机场。
    我自己买的两个 10 元机场加上机场白嫖分享,IP 加起来有 500 个左右,抛开无效和出口重复的,大概有 300 个 IP 左右,
    如果找那种 1 元机场以及收集白嫖的,感觉应该能收集 1000 个 IP 没问题。
    callmejoejoe
        22
    callmejoejoe  
    OP
       364 天前
    @vicv 不是大佬啊,参照上面 v 友说的找便宜的都买点,应该是怕跑路
    @ns09005264 请问什么机场能直接看到 IP ?
    @viking602 请问机场如何动态切换 IP 呢?我搜索了一下目前只看到用 privoxy 转发或者是用 nginx 负载均衡
    ns09005264
        23
    ns09005264  
       363 天前   ❤️ 1
    看不到出口 IP ,不过可以自建公网服务后通过代理访问进行 IP 查询。

    我是通过启动 clash ,然后通过 API 进行节点切换。例子是单线程的,每次请求后,切换一次节点。
    如果要多线程,可以每个线程启动一个端口不同的 clash 进程,每个 clash 进程需要提前分配好节点配置。

    还有更简单的的方式就是只启动一个 clash ,代理组设置为负载均衡,负载均衡的策略为 Round Robin ,然后就可以多线程通过代理爬取目标地址。clash 会自动切换节点。

    还有更进一步的方法,如果你用 golang 开发,直接将 clash(mihomo)导入为库,解析配置后拿到 proxies 随便你怎么分配请求。

    https://gist.github.com/MapoMagpie/b7fa02328e0b7cd0a4f4669feae94733.js
    esee
        25
    esee  
       362 天前
    @ns09005264 这样切换节点是不是慢了点呀,有没有考虑直接把机场的每个节点转换成本地 sock5 这样直接使用方便点。
    ns09005264
        26
    ns09005264  
       362 天前
    @esee 相对爬虫请求来说切换节点不慢,上一个请求结束了立即重置 clash 的连接并切换节点,由于是本地服务,基本切换起来没什么延迟。

    不过你说的把每个节点转换成本地 socks5 代理端口,我之前没听说过这种方案,搜索了下后,感觉确实是个不错的方案,本质是把每个节点变成一个入口,而 clash-meta 已经支持多入口。所以现在用机场当爬虫代理应该比较简单了。
    sead
        27
    sead  
       361 天前   ❤️ 1
    PG + clickhouse , 撸过上千万的 asins ,IP 独享的情况下,20 秒左右一个请求不会 ban 。
    nyxsonsleep
        28
    nyxsonsleep  
       361 天前   ❤️ 1
    举个例子,大量的物联网设备,大量的不开源路由器固件,甚至非官手机刷机包。低成本都是黑产出来的,那些东西的成本几乎为 0 ,正规渠道不可能竞争得过。而且爬数据基本是违法的,肉身不在国外属于作大死。
    privateproxies
        29
    privateproxies  
       361 天前
    viking602
        30
    viking602  
       361 天前   ❤️ 1
    @callmejoejoe #22 用的 mihomo 内核调用 API 实时监测是否可用 每五秒调用一次切换节点的 API 然后用 gost 做的负载均衡 https://gost.run/
    callmejoejoe
        31
    callmejoejoe  
    OP
       356 天前
    @nyxsonsleep 感谢科普,另外爬亚马逊也是违法的吗?有好多出名的工具都是爬亚马逊,我以为是可以爬的来着😱
    @viking602 非常感谢
    @sead PG 是啥
    sead
        32
    sead  
       354 天前   ❤️ 1
    @callmejoejoe PG: postgresql, 另外爬虫在国外没有那么玄乎,公开数据随便爬,如果是违法的,谷歌公司的不是得全抓了
    piero66
        33
    piero66  
       318 天前 via Android   ❤️ 1
    如果目标支持 ipv6 ,可以自建 asn bgp 广播
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5289 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 08:32 · PVG 16:32 · LAX 01:32 · JFK 04:32
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.