1
mumbler 19 小时 14 分钟前 ![]() 能跑,很酷,但性价比很低
目前跑大模型最划算的是 2080ti 魔改 22G ,用 128G M4 的价格可以买 8 块 2080 交火 176G ,多并发流畅跑 32B fp16 和 70B fp16 ,剩下的钱还能再买个 16G m4 用 |
![]() |
3
chiaf 19 小时 5 分钟前
你指的训练大模型吧,那不能。
本地跑的那种跑,绝对没问题,除了那种超大的模型,比如什么迪普稀客满血版🌝 |
![]() |
4
lithiumii 19 小时 1 分钟前 via Android
能,但是容量尴尬吧。跑不了最大的那些 671B 或者 405B ,往下 70B 之类的魔改显卡也能了,还更快。
|
5
noobjalen 19 小时 0 分钟前
|
![]() |
6
neteroster 18 小时 55 分钟前 via Android
[同时]满足下面几个要求的情况下有优势:
1. bs=1 (不并发) 2. 轻 prefill 负载(仅类似 chatbot 任务,没有 rag 这样的工况) 3. 静音与便携 4. 需要跑较大的模型(很慢但能跑) --- 一旦你要并发或者重 prefill 任务就会原地爆炸,被多消费卡方案杀出几十上百倍的吞吐都不是不可能的。就算你不考虑吞吐只是单线程,也只有跑 MoE 的时候有比较显著的性价比优势,可惜这 128G 左右也没啥合适的 MoE 。 综合意见就是,大体上优势只有功耗静音。Ultra 的话能装下 R1 还有点看头,Max 除了功耗这些外围的基本可以说没什么跑 LLM 的优势。 |
![]() |
7
killgfat 18 小时 53 分钟前 via Android
除非你对输出速度没什么要求,但对能耗很有要求,而且预算很充足,不然不建议这么干,这个钱组 PC 都够组一套勉强能通过 ktransformers 跑 dsv3 的玩意了
|
8
hefish 18 小时 9 分钟前
gpu 太弱, 本机跑跑问题不大。 针对 apple metal 的工具链也不够完善。 至少 vllm 目前还不支持 apple 的 gpu 。。。ollama 倒是支持了,exo 也支持了,但是开源的模型不能直接用,ollama 需要导入,有时候会因为 gpu 架构问题导入失败,exo 都不知道怎么导入自己下载的模型。。。
|
![]() |
9
liulicaixiao 17 小时 18 分钟前 ![]() 个人觉得不要为了跑大模型而买设备,而应该是有刚需买这个设备,而这个设备恰好能跑大模型。因为大模型的需求是无止尽的,你买一个超级豪华配置的钱,足够你使用 api 很久,而且还能免去你配置中出现的各种问题
|
![]() |
10
yiios 17 小时 8 分钟前
|
![]() |
11
icyalala 16 小时 45 分钟前
如果你买 Mac 做生产力工具,大模型刚好是其中的一个需求,那非常合适。
如果你买这个目的就只跑大模型,那就没意义了,楼上大部分对比都是基于这个假设。。。 |
![]() |
12
ShadowPower 16 小时 30 分钟前
这个容量能跑的实用模型,消费级 N 卡都能单卡或者双卡跑( 32B / 70B )
实用程度更高的模型,128GB 内存不够跑,想方设法跑起来也会有很严重的性能/质量问题 |
13
BernieDu 16 小时 9 分钟前
@mumbler 8 块 2080ti 魔改 22g 交火带宽是多少,没记错的话 2080ti 不支持 nvlink 。PCIe 3.0 每卡双向带宽 7.88 GB/s 。是 m4 ultra 内存带宽的 100 分之一。你确定能流畅跑 70B fp16 ? 每秒输出多少 token ?
|
![]() |
14
azhangbing 15 小时 36 分钟前 via iPhone
充钱用 token 可以到天荒地老
|
15
DICK23 15 小时 34 分钟前
我之前也是这么个想法,但是后面想想如果只是运行不训练,那直接用云服务 API 不是更便宜吗?数据敏感的场景除外
|
![]() |
17
ShadowPower 15 小时 14 分钟前
@DICK23 数据敏感的场景拿出来租几天 VPS 跑,没有哪家厂商会花成本去监听和解析内存数据
|
18
234ygg 15 小时前
压根跑不动比较大的模型,吐第一个字要等半个世纪,上下文越长,吐第一个字速度越慢
|
![]() |
20
Liftman 10 小时 6 分钟前
我就是,明确的跟你讲,除非 mlx 优化的,一般不咋的。正常你如果 ollama 拉一个。32b 及以下参数量的模型。速度还算不错。如果到 70b 。就 10tokens 左右了。
但是。这应该是能买到的本地化+移动便携最好的设备了。。。。我出去做讲座都是开 32b+70b+7b+1.5b 给人家演示参数的差别。。所以还算不错啦。。。毕竟你想现在买个 2 个 4090 的设备也就那么点显存。还不够跑个寂寞呢。。。也不能带出门。。。 |
![]() |
21
clf 10 小时 1 分钟前
挺适合。
2080Ti 方案的话,残值低,买到手=亏 70%,还没算额外的电源成本和 8 卡主板等周边配套的成本。 起码在能耗、性能和省事上来说,M4 Max 很不错。(至少后续没兴趣在本地跑大模型了,也能卖二手,保值率还是挺高的) |
![]() |
22
wclebb 5 小时 26 分钟前 via iPhone
Mac Studio M2 Max 64G 跑过 70B DS ,能跑。只是找不到实用性价值(都是用 API 和 ChatGPT 聊天)。
DS 问多了也会把我搞抑郁,不敢问了。所以 128G 肯定能跑。只是得问一下实用性的价值在哪里而已。iOS Craft 已经支持离线下载 DS 可以用 AI (估计 Mac 也能)。 后面估计可以玩更好玩的玩法,只是现在还没有。 |
![]() |
23
rogerer 23 分钟前
为了考虑要不要在本地跑 LLM 买设备,不如考虑一下这个钱拿去买 token 会不会更好。开源的模型,deepseek qwen llama ,它们的 api 也都不算贵。
|