Studio M4max 128G 是否合适跑大模型

37 条回复 • 2025-03-18 02:18:46 +08:00

1

mumbler

170 天前

1

能跑，很酷，但性价比很低

目前跑大模型最划算的是 2080ti 魔改 22G ，用 128G M4 的价格可以买 8 块 2080 交火 176G ，多并发流畅跑 32B fp16 和 70B fp16 ，剩下的钱还能再买个 16G m4 用

2

886106

OP

170 天前 via iPhone

@mumbler 你说这硬要上服务器才能跑 8 张卡了

3

chiaf

170 天前

你指的训练大模型吧，那不能。

本地跑的那种跑，绝对没问题，除了那种超大的模型，比如什么迪普稀客满血版🌝

4

lithiumii

170 天前 via Android

能，但是容量尴尬吧。跑不了最大的那些 671B 或者 405B ，往下 70B 之类的魔改显卡也能了，还更快。

5

noobjalen

170 天前

我 32g 能跑 9b 大模型，这算大模型吗。当然是不建议，能跑但慢。

6

neteroster

170 天前 via Android

1

［同时］满足下面几个要求的情况下有优势：
1. bs=1 （不并发）
2. 轻 prefill 负载（仅类似 chatbot 任务，没有 rag 这样的工况）
3. 静音与便携
4. 需要跑较大的模型（很慢但能跑）

---

一旦你要并发或者重 prefill 任务就会原地爆炸，被多消费卡方案杀出几十上百倍的吞吐都不是不可能的。就算你不考虑吞吐只是单线程，也只有跑 MoE 的时候有比较显著的性价比优势，可惜这 128G 左右也没啥合适的 MoE 。

综合意见就是，大体上优势只有功耗静音。Ultra 的话能装下 R1 还有点看头，Max 除了功耗这些外围的基本可以说没什么跑 LLM 的优势。

7

killgfat

170 天前 via Android

除非你对输出速度没什么要求，但对能耗很有要求，而且预算很充足，不然不建议这么干，这个钱组 PC 都够组一套勉强能通过 ktransformers 跑 dsv3 的玩意了

8

hefish

170 天前

gpu 太弱，本机跑跑问题不大。针对 apple metal 的工具链也不够完善。至少 vllm 目前还不支持 apple 的 gpu 。。。ollama 倒是支持了，exo 也支持了，但是开源的模型不能直接用，ollama 需要导入，有时候会因为 gpu 架构问题导入失败，exo 都不知道怎么导入自己下载的模型。。。

9

liulicaixiao

170 天前

4

个人觉得不要为了跑大模型而买设备，而应该是有刚需买这个设备，而这个设备恰好能跑大模型。因为大模型的需求是无止尽的，你买一个超级豪华配置的钱，足够你使用 api 很久，而且还能免去你配置中出现的各种问题

10

yiios

170 天前

@neteroster
你把我想说的都说完了。
一个是没有靠谱的并发方案，另一个 prompt 处理方面速度慢 N 卡至少一个数量级以上。

11

icyalala

170 天前

如果你买 Mac 做生产力工具，大模型刚好是其中的一个需求，那非常合适。

如果你买这个目的就只跑大模型，那就没意义了，楼上大部分对比都是基于这个假设。。。

12

ShadowPower

170 天前

这个容量能跑的实用模型，消费级 N 卡都能单卡或者双卡跑（ 32B / 70B ）
实用程度更高的模型，128GB 内存不够跑，想方设法跑起来也会有很严重的性能/质量问题

13

BernieDu

170 天前

@mumbler 8 块 2080ti 魔改 22g 交火带宽是多少，没记错的话 2080ti 不支持 nvlink 。PCIe 3.0 每卡双向带宽 7.88 GB/s 。是 m4 ultra 内存带宽的 100 分之一。你确定能流畅跑 70B fp16 ？每秒输出多少 token ？

14

azhangbing

170 天前 via iPhone

充钱用 token 可以到天荒地老

15

DICK23

170 天前

我之前也是这么个想法，但是后面想想如果只是运行不训练，那直接用云服务 API 不是更便宜吗？数据敏感的场景除外

16

tap91624

170 天前

@BernieDu 2080ti 两两之间支持 nvlink

17

ShadowPower

169 天前

@DICK23 数据敏感的场景拿出来租几天 VPS 跑，没有哪家厂商会花成本去监听和解析内存数据

18

234ygg

169 天前

压根跑不动比较大的模型，吐第一个字要等半个世纪，上下文越长，吐第一个字速度越慢

19

BernieDu

169 天前

@tap91624 2 条 nvlink 通道没办法实现 8 卡交火吧，而且 nvlink1 的带宽也不过 100 GB/s

20

Liftman

169 天前

我就是，明确的跟你讲，除非 mlx 优化的，一般不咋的。正常你如果 ollama 拉一个。32b 及以下参数量的模型。速度还算不错。如果到 70b 。就 10tokens 左右了。

但是。这应该是能买到的本地化+移动便携最好的设备了。。。。我出去做讲座都是开 32b+70b+7b+1.5b 给人家演示参数的差别。。所以还算不错啦。。。毕竟你想现在买个 2 个 4090 的设备也就那么点显存。还不够跑个寂寞呢。。。也不能带出门。。。

21

clf

169 天前

挺适合。

2080Ti 方案的话，残值低，买到手=亏 70%，还没算额外的电源成本和 8 卡主板等周边配套的成本。

起码在能耗、性能和省事上来说，M4 Max 很不错。（至少后续没兴趣在本地跑大模型了，也能卖二手，保值率还是挺高的）

22

wclebb

169 天前 via iPhone

Mac Studio M2 Max 64G 跑过 70B DS ，能跑。只是找不到实用性价值（都是用 API 和 ChatGPT 聊天）。

DS 问多了也会把我搞抑郁，不敢问了。所以 128G 肯定能跑。只是得问一下实用性的价值在哪里而已。iOS Craft 已经支持离线下载 DS 可以用 AI （估计 Mac 也能）。

后面估计可以玩更好玩的玩法，只是现在还没有。

23

rogerer

169 天前

为了考虑要不要在本地跑 LLM 买设备，不如考虑一下这个钱拿去买 token 会不会更好。开源的模型，deepseek qwen llama ，它们的 api 也都不算贵。

24

newbeelity

169 天前

请教一下 8 张 2080 怎么硬件交火，用什么交火硬件
@mumbler

25

ShadowPower

169 天前

@BernieDu 推理对 PCIe 带宽要求很低，训练的要求倒是很高

26

newbeelity

169 天前

多张民用显卡叠加跑模型一直是个问题，目前仅有软件方案 exo 等（仍在 beta ），虽然官方出了 nvlink 硬件，但支持的显卡，及数量都是优先的。所以用民用显卡显存堆起来跑大尺寸模型本身就不可行。我给楼主的建议是，mac studio 可行，速度还能接受，每秒 20 个 token 左右
-- 来自 m3 ultra 512G 统一内存用户

27

BernieDu

169 天前

@ShadowPower 如果推理不要求带宽那都用内存推理了。。

28

ShadowPower

169 天前

@BernieDu
PCIe 接口在推理的过程中，传输的数据只有用户输入的文本和模型返回的文本（一次一 Token ）
多卡的话，再加上一些层与层之间传输的信息以及一些上下文更新信息，也非常少

吃的带宽都是 GPU-显存之间的带宽，这部分不走 PCIe 。为什么吃：因为生成一个 Token 就得访问一次所有激活参数。但你需要注意的是，这是 GPU 访问自己负责的那部分参数，多 GPU 也不会需要 A GPU 去访问 B GPU 上的显存。

如果用 NVIDIA 以前的 SLI 技术，那倒是会有上面说的情况。但跑模型并不采用这种技术方案，AI 工程师不会那么蠢……

29

ShadowPower

169 天前 via Android

@BernieDu 我现在用来跑 LLM 的显卡，实际 PCIe 带宽是 7.88GB/s （用的平台太老），显卡的显存带宽是 288GB/s ，跑 5bpw 量化 14B 模型实际有 28 token/s

30

BernieDu

169 天前

@ShadowPower 14B 5bit 的小模型大概需要 9g 显存，你这用不着交火吧。我自己没试过 pcie 显卡交火跑模型，但是 ds 查的模型并行(场景是模型过大，需拆分到多个 GPU) 前向传播时需频繁传递中间张量（如层间输出）。PCIe 带宽 7.88GB/s 会限制大张量传输。成为推理瓶颈。让我用 nvlink 。（应该不会封号吧）

31

ShadowPower

169 天前

@BernieDu
你用 DeepSeek 的话，那就好办了。
你应该这么问 DeepSeek：

---------------

这是 LLAMA 模型的尺寸信息：
'llama3_70b': dict(
base_model='llama3_8b',
vocab_size=128256,
hidden_size=8192,
intermediate_size=28672,
num_hidden_layers=80,
num_attention_heads=64,
num_key_value_heads=8,
max_position_embeddings=8192,
rms_norm_eps=1e-5,
rope_theta=5e5,
),

双显卡跑 LLAMA 70B 模型，batch_size=1 ，模型拆分到两块显卡上，采用流水线并行。激活值精度为 float16 ，计算生成单个 token 时，两块显卡之间前向传播数据大小。

-----------------

它给你算出一个大小，然后，PCIe 4.0 x16 的带宽大约有 32GB/s ，用带宽除以每 token 传输的数据量，就可以算出这个瓶颈会限制 Token/s 到多大了。

32

swmjjy

169 天前

@BernieDu 要求带宽的是 GPU 和自身显存之间的通信, 而 GPU 之间几乎只是每层(甚至可以是每 N 层)进行一次简单的中间状态交互, 带宽要求可以非常低

举例, 8 张 3060, Qwen2.5-72B 4bit 量化
promp prefill: 470token/s
decode bs=1: 37token/s
decode 高并发: 430token/s

(这几个数据对于 m4 max 而言是 ~50token/s, ~12token/s, ~30token/s)