V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
886106
V2EX  ›  Apple

Studio M4max 128G 是否合适跑大模型

  •  
  •   886106 · 1 天前 via iPhone · 2868 次点击
    看上 M4 的芯片了,128G 适合跑大模型么
    37 条回复    2025-03-18 02:18:46 +08:00
    mumbler
        1
    mumbler  
       1 天前   ❤️ 1
    能跑,很酷,但性价比很低

    目前跑大模型最划算的是 2080ti 魔改 22G ,用 128G M4 的价格可以买 8 块 2080 交火 176G ,多并发流畅跑 32B fp16 和 70B fp16 ,剩下的钱还能再买个 16G m4 用
    886106
        2
    886106  
    OP
       1 天前 via iPhone
    @mumbler 你说这硬要上服务器才能跑 8 张卡了
    chiaf
        3
    chiaf  
       1 天前
    你指的训练大模型吧,那不能。

    本地跑的那种跑,绝对没问题,除了那种超大的模型,比如什么迪普稀客满血版🌝
    lithiumii
        4
    lithiumii  
       1 天前 via Android
    能,但是容量尴尬吧。跑不了最大的那些 671B 或者 405B ,往下 70B 之类的魔改显卡也能了,还更快。
    noobjalen
        5
    noobjalen  
       1 天前
    我 32g 能跑 9b 大模型,这算大模型吗。 当然是不建议,能跑但慢。
    neteroster
        6
    neteroster  
       1 天前 via Android
    [同时]满足下面几个要求的情况下有优势:
    1. bs=1 (不并发)
    2. 轻 prefill 负载(仅类似 chatbot 任务,没有 rag 这样的工况)
    3. 静音与便携
    4. 需要跑较大的模型(很慢但能跑)

    ---

    一旦你要并发或者重 prefill 任务就会原地爆炸,被多消费卡方案杀出几十上百倍的吞吐都不是不可能的。就算你不考虑吞吐只是单线程,也只有跑 MoE 的时候有比较显著的性价比优势,可惜这 128G 左右也没啥合适的 MoE 。

    综合意见就是,大体上优势只有功耗静音。Ultra 的话能装下 R1 还有点看头,Max 除了功耗这些外围的基本可以说没什么跑 LLM 的优势。
    killgfat
        7
    killgfat  
       1 天前 via Android
    除非你对输出速度没什么要求,但对能耗很有要求,而且预算很充足,不然不建议这么干,这个钱组 PC 都够组一套勉强能通过 ktransformers 跑 dsv3 的玩意了
    hefish
        8
    hefish  
       1 天前
    gpu 太弱, 本机跑跑问题不大。 针对 apple metal 的工具链也不够完善。 至少 vllm 目前还不支持 apple 的 gpu 。。。ollama 倒是支持了,exo 也支持了,但是开源的模型不能直接用,ollama 需要导入,有时候会因为 gpu 架构问题导入失败,exo 都不知道怎么导入自己下载的模型。。。
    liulicaixiao
        9
    liulicaixiao  
       1 天前   ❤️ 4
    个人觉得不要为了跑大模型而买设备,而应该是有刚需买这个设备,而这个设备恰好能跑大模型。因为大模型的需求是无止尽的,你买一个超级豪华配置的钱,足够你使用 api 很久,而且还能免去你配置中出现的各种问题
    yiios
        10
    yiios  
       1 天前
    @neteroster
    你把我想说的都说完了。
    一个是没有靠谱的并发方案,另一个 prompt 处理方面速度慢 N 卡至少一个数量级以上。
    icyalala
        11
    icyalala  
       1 天前
    如果你买 Mac 做生产力工具,大模型刚好是其中的一个需求,那非常合适。

    如果你买这个目的就只跑大模型,那就没意义了,楼上大部分对比都是基于这个假设。。。
    ShadowPower
        12
    ShadowPower  
       1 天前
    这个容量能跑的实用模型,消费级 N 卡都能单卡或者双卡跑( 32B / 70B )
    实用程度更高的模型,128GB 内存不够跑,想方设法跑起来也会有很严重的性能/质量问题
    BernieDu
        13
    BernieDu  
       1 天前
    @mumbler 8 块 2080ti 魔改 22g 交火带宽是多少,没记错的话 2080ti 不支持 nvlink 。PCIe 3.0 每卡双向带宽 7.88 GB/s 。是 m4 ultra 内存带宽的 100 分之一。你确定能流畅跑 70B fp16 ? 每秒输出多少 token ?
    azhangbing
        14
    azhangbing  
       1 天前 via iPhone
    充钱用 token 可以到天荒地老
    DICK23
        15
    DICK23  
       1 天前
    我之前也是这么个想法,但是后面想想如果只是运行不训练,那直接用云服务 API 不是更便宜吗?数据敏感的场景除外
    tap91624
        16
    tap91624  
       1 天前
    @BernieDu 2080ti 两两之间支持 nvlink
    ShadowPower
        17
    ShadowPower  
       1 天前
    @DICK23 数据敏感的场景拿出来租几天 VPS 跑,没有哪家厂商会花成本去监听和解析内存数据
    234ygg
        18
    234ygg  
       1 天前
    压根跑不动比较大的模型,吐第一个字要等半个世纪,上下文越长,吐第一个字速度越慢
    BernieDu
        19
    BernieDu  
       1 天前
    @tap91624 2 条 nvlink 通道没办法实现 8 卡交火吧,而且 nvlink1 的带宽也不过 100 GB/s
    Liftman
        20
    Liftman  
       1 天前
    我就是,明确的跟你讲,除非 mlx 优化的,一般不咋的。正常你如果 ollama 拉一个。32b 及以下参数量的模型。速度还算不错。如果到 70b 。就 10tokens 左右了。

    但是。这应该是能买到的本地化+移动便携最好的设备了。。。。我出去做讲座都是开 32b+70b+7b+1.5b 给人家演示参数的差别。。所以还算不错啦。。。毕竟你想现在买个 2 个 4090 的设备也就那么点显存。还不够跑个寂寞呢。。。也不能带出门。。。
    clf
        21
    clf  
       1 天前
    挺适合。

    2080Ti 方案的话,残值低,买到手=亏 70%,还没算额外的电源成本和 8 卡主板等周边配套的成本。

    起码在能耗、性能和省事上来说,M4 Max 很不错。(至少后续没兴趣在本地跑大模型了,也能卖二手,保值率还是挺高的)
    wclebb
        22
    wclebb  
       1 天前 via iPhone
    Mac Studio M2 Max 64G 跑过 70B DS ,能跑。只是找不到实用性价值(都是用 API 和 ChatGPT 聊天)。

    DS 问多了也会把我搞抑郁,不敢问了。所以 128G 肯定能跑。只是得问一下实用性的价值在哪里而已。iOS Craft 已经支持离线下载 DS 可以用 AI (估计 Mac 也能)。

    后面估计可以玩更好玩的玩法,只是现在还没有。
    rogerer
        23
    rogerer  
       23 小时 5 分钟前
    为了考虑要不要在本地跑 LLM 买设备,不如考虑一下这个钱拿去买 token 会不会更好。开源的模型,deepseek qwen llama ,它们的 api 也都不算贵。
    newbeelity
        24
    newbeelity  
       21 小时 12 分钟前
    请教一下 8 张 2080 怎么硬件交火,用什么交火硬件
    @mumbler
    ShadowPower
        25
    ShadowPower  
       20 小时 46 分钟前
    @BernieDu 推理对 PCIe 带宽要求很低,训练的要求倒是很高
    newbeelity
        26
    newbeelity  
       19 小时 41 分钟前
    多张民用显卡叠加跑模型一直是个问题,目前仅有软件方案 exo 等(仍在 beta ),虽然官方出了 nvlink 硬件,但支持的显卡,及数量都是优先的。所以用民用显卡显存堆起来跑大尺寸模型本身就不可行。我给楼主的建议是,mac studio 可行,速度还能接受,每秒 20 个 token 左右
    -- 来自 m3 ultra 512G 统一内存用户
    BernieDu
        27
    BernieDu  
       19 小时 0 分钟前
    @ShadowPower 如果推理不要求带宽那都用内存推理了。。
    ShadowPower
        28
    ShadowPower  
       18 小时 51 分钟前
    @BernieDu
    PCIe 接口在推理的过程中,传输的数据只有用户输入的文本和模型返回的文本(一次一 Token )
    多卡的话,再加上一些层与层之间传输的信息以及一些上下文更新信息,也非常少

    吃的带宽都是 GPU-显存之间的带宽,这部分不走 PCIe 。为什么吃:因为生成一个 Token 就得访问一次所有激活参数。但你需要注意的是,这是 GPU 访问自己负责的那部分参数,多 GPU 也不会需要 A GPU 去访问 B GPU 上的显存。

    如果用 NVIDIA 以前的 SLI 技术,那倒是会有上面说的情况。但跑模型并不采用这种技术方案,AI 工程师不会那么蠢……
    ShadowPower
        29
    ShadowPower  
       18 小时 40 分钟前 via Android
    @BernieDu 我现在用来跑 LLM 的显卡,实际 PCIe 带宽是 7.88GB/s (用的平台太老),显卡的显存带宽是 288GB/s ,跑 5bpw 量化 14B 模型实际有 28 token/s
    BernieDu
        30
    BernieDu  
       18 小时 21 分钟前
    @ShadowPower 14B 5bit 的小模型大概需要 9g 显存,你这用不着交火吧。我自己没试过 pcie 显卡交火跑模型,但是 ds 查的模型并行(场景是模型过大,需拆分到多个 GPU) 前向传播时需频繁传递中间张量(如层间输出)。PCIe 带宽 7.88GB/s 会限制大张量传输。成为推理瓶颈。让我用 nvlink 。(应该不会封号吧)
    ShadowPower
        31
    ShadowPower  
       17 小时 51 分钟前
    @BernieDu
    你用 DeepSeek 的话,那就好办了。
    你应该这么问 DeepSeek:

    ---------------

    这是 LLAMA 模型的尺寸信息:
    'llama3_70b': dict(
    base_model='llama3_8b',
    vocab_size=128256,
    hidden_size=8192,
    intermediate_size=28672,
    num_hidden_layers=80,
    num_attention_heads=64,
    num_key_value_heads=8,
    max_position_embeddings=8192,
    rms_norm_eps=1e-5,
    rope_theta=5e5,
    ),

    双显卡跑 LLAMA 70B 模型,batch_size=1 ,模型拆分到两块显卡上,采用流水线并行。激活值精度为 float16 ,计算生成单个 token 时,两块显卡之间前向传播数据大小。

    -----------------

    它给你算出一个大小,然后,PCIe 4.0 x16 的带宽大约有 32GB/s ,用带宽除以每 token 传输的数据量,就可以算出这个瓶颈会限制 Token/s 到多大了。
    swmjjy
        32
    swmjjy  
       14 小时 39 分钟前
    @BernieDu 要求带宽的是 GPU 和自身显存之间的通信, 而 GPU 之间几乎只是每层(甚至可以是每 N 层)进行一次简单的中间状态交互, 带宽要求可以非常低

    举例, 8 张 3060, Qwen2.5-72B 4bit 量化
    promp prefill: 470token/s
    decode bs=1: 37token/s
    decode 高并发: 430token/s

    (这几个数据对于 m4 max 而言是 ~50token/s, ~12token/s, ~30token/s)




    swmjjy
        33
    swmjjy  
       14 小时 34 分钟前
    @newbeelity 这并不是什么问题, 主流推理框架全都正式支持至少一种并行方式, 而且都不必选依赖 nvlink 或者对应 GPU 的同等通信方式, exo 仅仅属于在 mac 社区里比较知名的简单山寨实现而已
    newbeelity
        34
    newbeelity  
       12 小时 39 分钟前
    @swmjjy 感谢,马上去试试:)
    BernieDu
        35
    BernieDu  
       8 小时 2 分钟前
    @swmjjy 感谢数据,被 ds 的回答误导了。。
    gigishy
        36
    gigishy  
       4 小时 27 分钟前 via iPhone
    @noobjalen 你保守了……我 m1 的 16g 内存 iMac ,流畅 14b 。32b 明显卡顿,测试了一下,缺内存的原因,不是 m1 的原因。
    gigishy
        37
    gigishy  
       4 小时 23 分钟前 via iPhone
    @liulicaixiao 有一个压倒所有你说的因素的原因:隐私和安全。因为这个缘故,才花五位数买来本地跑模型……
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1078 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 22:42 · PVG 06:42 · LAX 15:42 · JFK 18:42
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.