V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
886106
V2EX  ›  Apple

Studio M4max 128G 是否合适跑大模型

  •  
  •   886106 · 19 小时 19 分钟前 via iPhone · 1980 次点击
    看上 M4 的芯片了,128G 适合跑大模型么
    23 条回复    2025-03-17 07:37:06 +08:00
    mumbler
        1
    mumbler  
       19 小时 14 分钟前   ❤️ 1
    能跑,很酷,但性价比很低

    目前跑大模型最划算的是 2080ti 魔改 22G ,用 128G M4 的价格可以买 8 块 2080 交火 176G ,多并发流畅跑 32B fp16 和 70B fp16 ,剩下的钱还能再买个 16G m4 用
    886106
        2
    886106  
    OP
       19 小时 10 分钟前 via iPhone
    @mumbler 你说这硬要上服务器才能跑 8 张卡了
    chiaf
        3
    chiaf  
       19 小时 5 分钟前
    你指的训练大模型吧,那不能。

    本地跑的那种跑,绝对没问题,除了那种超大的模型,比如什么迪普稀客满血版🌝
    lithiumii
        4
    lithiumii  
       19 小时 1 分钟前 via Android
    能,但是容量尴尬吧。跑不了最大的那些 671B 或者 405B ,往下 70B 之类的魔改显卡也能了,还更快。
    noobjalen
        5
    noobjalen  
       19 小时 0 分钟前
    我 32g 能跑 9b 大模型,这算大模型吗。 当然是不建议,能跑但慢。
    neteroster
        6
    neteroster  
       18 小时 55 分钟前 via Android
    [同时]满足下面几个要求的情况下有优势:
    1. bs=1 (不并发)
    2. 轻 prefill 负载(仅类似 chatbot 任务,没有 rag 这样的工况)
    3. 静音与便携
    4. 需要跑较大的模型(很慢但能跑)

    ---

    一旦你要并发或者重 prefill 任务就会原地爆炸,被多消费卡方案杀出几十上百倍的吞吐都不是不可能的。就算你不考虑吞吐只是单线程,也只有跑 MoE 的时候有比较显著的性价比优势,可惜这 128G 左右也没啥合适的 MoE 。

    综合意见就是,大体上优势只有功耗静音。Ultra 的话能装下 R1 还有点看头,Max 除了功耗这些外围的基本可以说没什么跑 LLM 的优势。
    killgfat
        7
    killgfat  
       18 小时 53 分钟前 via Android
    除非你对输出速度没什么要求,但对能耗很有要求,而且预算很充足,不然不建议这么干,这个钱组 PC 都够组一套勉强能通过 ktransformers 跑 dsv3 的玩意了
    hefish
        8
    hefish  
       18 小时 9 分钟前
    gpu 太弱, 本机跑跑问题不大。 针对 apple metal 的工具链也不够完善。 至少 vllm 目前还不支持 apple 的 gpu 。。。ollama 倒是支持了,exo 也支持了,但是开源的模型不能直接用,ollama 需要导入,有时候会因为 gpu 架构问题导入失败,exo 都不知道怎么导入自己下载的模型。。。
    liulicaixiao
        9
    liulicaixiao  
       17 小时 18 分钟前   ❤️ 2
    个人觉得不要为了跑大模型而买设备,而应该是有刚需买这个设备,而这个设备恰好能跑大模型。因为大模型的需求是无止尽的,你买一个超级豪华配置的钱,足够你使用 api 很久,而且还能免去你配置中出现的各种问题
    yiios
        10
    yiios  
       17 小时 8 分钟前
    @neteroster
    你把我想说的都说完了。
    一个是没有靠谱的并发方案,另一个 prompt 处理方面速度慢 N 卡至少一个数量级以上。
    icyalala
        11
    icyalala  
       16 小时 45 分钟前
    如果你买 Mac 做生产力工具,大模型刚好是其中的一个需求,那非常合适。

    如果你买这个目的就只跑大模型,那就没意义了,楼上大部分对比都是基于这个假设。。。
    ShadowPower
        12
    ShadowPower  
       16 小时 30 分钟前
    这个容量能跑的实用模型,消费级 N 卡都能单卡或者双卡跑( 32B / 70B )
    实用程度更高的模型,128GB 内存不够跑,想方设法跑起来也会有很严重的性能/质量问题
    BernieDu
        13
    BernieDu  
       16 小时 9 分钟前
    @mumbler 8 块 2080ti 魔改 22g 交火带宽是多少,没记错的话 2080ti 不支持 nvlink 。PCIe 3.0 每卡双向带宽 7.88 GB/s 。是 m4 ultra 内存带宽的 100 分之一。你确定能流畅跑 70B fp16 ? 每秒输出多少 token ?
    azhangbing
        14
    azhangbing  
       15 小时 36 分钟前 via iPhone
    充钱用 token 可以到天荒地老
    DICK23
        15
    DICK23  
       15 小时 34 分钟前
    我之前也是这么个想法,但是后面想想如果只是运行不训练,那直接用云服务 API 不是更便宜吗?数据敏感的场景除外
    tap91624
        16
    tap91624  
       15 小时 27 分钟前
    @BernieDu 2080ti 两两之间支持 nvlink
    ShadowPower
        17
    ShadowPower  
       15 小时 14 分钟前
    @DICK23 数据敏感的场景拿出来租几天 VPS 跑,没有哪家厂商会花成本去监听和解析内存数据
    234ygg
        18
    234ygg  
       15 小时前
    压根跑不动比较大的模型,吐第一个字要等半个世纪,上下文越长,吐第一个字速度越慢
    BernieDu
        19
    BernieDu  
       13 小时 16 分钟前
    @tap91624 2 条 nvlink 通道没办法实现 8 卡交火吧,而且 nvlink1 的带宽也不过 100 GB/s
    Liftman
        20
    Liftman  
       10 小时 6 分钟前
    我就是,明确的跟你讲,除非 mlx 优化的,一般不咋的。正常你如果 ollama 拉一个。32b 及以下参数量的模型。速度还算不错。如果到 70b 。就 10tokens 左右了。

    但是。这应该是能买到的本地化+移动便携最好的设备了。。。。我出去做讲座都是开 32b+70b+7b+1.5b 给人家演示参数的差别。。所以还算不错啦。。。毕竟你想现在买个 2 个 4090 的设备也就那么点显存。还不够跑个寂寞呢。。。也不能带出门。。。
    clf
        21
    clf  
       10 小时 1 分钟前
    挺适合。

    2080Ti 方案的话,残值低,买到手=亏 70%,还没算额外的电源成本和 8 卡主板等周边配套的成本。

    起码在能耗、性能和省事上来说,M4 Max 很不错。(至少后续没兴趣在本地跑大模型了,也能卖二手,保值率还是挺高的)
    wclebb
        22
    wclebb  
       5 小时 26 分钟前 via iPhone
    Mac Studio M2 Max 64G 跑过 70B DS ,能跑。只是找不到实用性价值(都是用 API 和 ChatGPT 聊天)。

    DS 问多了也会把我搞抑郁,不敢问了。所以 128G 肯定能跑。只是得问一下实用性的价值在哪里而已。iOS Craft 已经支持离线下载 DS 可以用 AI (估计 Mac 也能)。

    后面估计可以玩更好玩的玩法,只是现在还没有。
    rogerer
        23
    rogerer  
       23 分钟前
    为了考虑要不要在本地跑 LLM 买设备,不如考虑一下这个钱拿去买 token 会不会更好。开源的模型,deepseek qwen llama ,它们的 api 也都不算贵。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1611 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 00:00 · PVG 08:00 · LAX 17:00 · JFK 20:00
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.