配置小主机跑大模型

主机

黑群辉

模型

j1900

83 条回复 • 2024-05-30 01:17:13 +08:00

1

jonty

2024-02-18 08:55:53 +08:00

AIO 的话，没啥拓展需求，12 代 i3 将将够组一套吧

2

paopjian

2024-02-18 08:56:28 +08:00

现在 LLM 门槛也没有那么低吧, mistral 7b 也不小, 真需要就找在线服务吧

3

winson030

2024-02-18 09:05:13 +08:00 via iPhone

好奇，一两千的预算，不上独显怎么跑模型？

4

hahiru

2024-02-18 09:09:15 +08:00

从你的描述中看得出来，你似乎并没有明确的大模型需求。
因为大部分小模型预设的并不好用，得针对性微调。
微调比加载需要更多显存。如果不想微调也得有显卡，不然 CPU 那速度真不如不用。
建议先主力机跑通流程，然后选符合门槛的小型机配置。

5

opengps

2024-02-18 09:12:07 +08:00

建议先用你自己电脑跑一套，满足需要后再去考虑配置硬件

6

nealot

2024-02-18 09:18:42 +08:00 via Android

据说有些 APU 能把显存魔改到 16G 然后跑大模型

J1900 还是算了吧

7

ychost

2024-02-18 09:23:38 +08:00

小主跑 LLM 几乎不可能，也不要想着 ALL IN ONE 了 BOOM 就不好了，我的小主机只装了个 Ubuntu ，其余的靠 docker 来安装

8

wxd21020

OP

2024-02-18 09:34:59 +08:00

@hahiru 目前倒是有一个主力台式机，上的 3060TI 显卡，是否可以结合使用呢
@ychost 那你也是小主机装个 Linux 然后把所有东西都怼到 docker 是吧，这种方式也是可以的。
@winson030 可以把台式机的 3060TI 显卡拆下来用，不知道能不能支持。

9

wxd21020

OP

2024-02-18 09:35:29 +08:00

@nealot 现在就是想整个机器，1900 肯定是啥也跑不了的

10

JensenQian

2024-02-18 09:37:16 +08:00

主机卖掉
冲个 chatgpt plus
完毕

11

hahiru

2024-02-18 09:37:28 +08:00

主力机跑模型，小主机跑 API 可以，其他不要想了。人工智能本地化就是资源堆砌，和小主机的初衷相悖。

12

makerbi

2024-02-18 09:38:32 +08:00

如果只是关键字提取、文本摘要这种的需求的话用 1~2B 的模型就可以了，llama.cpp 量化部署，纯 CPU 跑就行，内存不要太小都没问题。

13

ShadowPower

2024-02-18 09:57:45 +08:00

@nealot APU 的方案不如直接用 CPU 快，我试过……

14

nealot

2024-02-18 09:57:58 +08:00 via Android

@wxd21020 搜 Reddit 帖子
I turned a $95 AMD APU into a 16GB VRAM GPU and it can run stable diffusion

15

wxd21020

OP

2024-02-18 10:03:12 +08:00

@JensenQian 我现在就用 3.5 ，plus 感觉没那么大需求

@hahiru 可以先拿主力机试试
@makerbi 感谢老哥，现在需求也就搞点文字，提取文本啥的这些需求，我研究一下整个模型。
@nealot 安排

16

ShadowPower

2024-02-18 10:03:56 +08:00

我之前用 Intel N100 跑过。实际上速度还能接受，这玩意的内存还只是单通道（或者算 32bit 位宽双通道）的。
再过一段时间也许会有更好的方案，苹果提出的那个还是手机内存+手机闪存的组合。

找个 DDR5 双通道（在 CPU-Z 里应该显示 32bit 四通道）的主机就好了。不建议选 AMD 平台，因为有内存带宽上限 50GB/s 的限制，只有 APU 能用得上更高的带宽。然而我用 6800H 试了，真实表现不如 CPU 推理。

17

ShadowPower

2024-02-18 10:07:03 +08:00

@nealot Stable Diffusion 和 LLM 的性能表现不一样，我都试过……
Stable Diffusion 的话，我的 7840HS 比 M2 Pro 都快（用 Olive ONNX ），但是 LLM 则反过来了。

18

reeco

2024-02-18 10:14:16 +08:00

纯 cpu 跑买一块支持 avx512 的 cpu 加 32G 内存，跑跑量化 7b 的也还行。用 gpu 你那块 3060ti 跑 7b 也完全够了，单独配其实也可以考虑 amd rocm ，便宜大碗。但目前这块需求其实没那么强，跑起来新鲜劲一过，容易吃灰。

19

network127001

2024-02-18 10:18:09 +08:00

跑大模型的都是电老虎啊，魔搭社区好像可以白嫖资源

20

ShadowPower

2024-02-18 10:25:23 +08:00

@reeco AVX512 对这个场景没有提升。
目前的情况，CPU 的运算速度不是瓶颈，瓶颈都在从内存到 CPU 的带宽上。

21

wxd21020

OP

2024-02-18 10:25:42 +08:00

@ShadowPower 那是不是可以等等，感觉也就是热乎劲儿，主要还是没有持续的需求

22

ShadowPower

2024-02-18 10:35:19 +08:00

@wxd21020 可以先玩玩线上的服务，或者用目前的主力机来跑。如果确实没有需求，其实很快就玩腻了，还能省一笔钱。

其实我也觉得等将来手机本地运行的方案成熟了以后再买会更好。很可能到那个时候，就算是非常低端的处理器，也有这方面的硬件加速，或者根据这种场景做专门的优化了。

23

Puteulanus

2024-02-18 10:44:02 +08:00

24

reeco

2024-02-18 10:51:48 +08:00

@ShadowPower 在我的 7950x 上面，llama.cpp avx512 有大约 10%到 20%的提升

25

wclebb

2024-02-18 11:16:09 +08:00

虽然很奇怪，但如果真想专门跑模型，Mac 8G 说不定也能跑。
因为 10 核心 16G 能跑。

26

reeco

2024-02-18 11:20:13 +08:00

@wclebb 能跑，7b 量化到 2bit ，iPhone 15 Pro 上就能跑了，但没什么用，模型上限太低了

27

Greendays

2024-02-18 13:12:59 +08:00

这预算只能捡垃圾吧，看看二手的 P106 和 P40 一类的显卡，这些显卡必须要配合核显是用，坑不少，可靠性也不保障。

28

chaos93

2024-02-18 13:29:52 +08:00

https://gptcs.chaos.mba/
试试

29

skye

2024-02-18 13:57:34 +08:00

小主机的话，应该只有 mac mini 符合你要求了

30

elegantwolf

2024-02-18 14:07:18 +08:00

确实，16g 甚至 24g 的 Mac mini 大概可以满足你的需求，但是需要额外配置非 cuda 的环境，以及没法用 docker ，我买了一台 16g 的 Mac mini 想试着跑跑，但是因为很难环境隔离，一直没下定决心去污染整个环境，。。。

31

thedog

2024-02-18 14:08:12 +08:00

mac studio 应该是能跑大模型的最佳小设备

32

stimw

2024-02-18 14:47:19 +08:00 via Android

@thedog 目前有几个大模型能支持 apple silicon

33

thedog

2024-02-18 14:57:41 +08:00

@stimw 大多数都可以

34

Jiajin

2024-02-18 15:44:37 +08:00

新鲜劲会很快过去了，因为现在开源本地大模型肯定是比不过 chatgpt 的，除非有明确需求

35

Revenant

2024-02-18 16:32:45 +08:00

树莓派 4B 跑量化 llm ，1 tokens/s ，这速度谁受得了啊😂😂

36

winson030

2024-02-18 18:40:15 +08:00 via iPhone

@wxd21020 有独显，那就上支持 oculink 的小主机，可进可退，完美😍

37

ShadowPower

2024-02-18 18:43:39 +08:00

@elegantwolf 也许可以试试 LM Studio ，玩腻了能删得比较干净

38

zagfai

2024-02-18 22:07:46 +08:00

AMD 5600G

39

Ayahuasec

2024-02-18 22:49:28 +08:00 via Android

我在用 N100 的小主机跑 q4km 量化的 14b 的 qwen ，机器装了根 32G 的内存，效果还可以，就是速度大概只有 2-3 tokens/s ，而且跑的时候风扇狂转

40

laminux29

2024-02-18 23:18:46 +08:00

1

1.有信息保护的场景，才需要自己买服务器跑大模型，其他场景完全没必要。

2.现在 OpenAI 的 GPT4 （离线版）、MS Copilot （联网版）和 Google Gemini （联网版）之外，其他的各种 AI ，质量真的是差，完全没私有化部署意义。

41

kneo

2024-02-18 23:49:52 +08:00 via Android

除非你有自觉倾向，否则不建议你尝试小主机大模型的吐豆速度。

42

lrigi

2024-02-19 08:14:47 +08:00 via iPhone

@elegantwolf ollama 和那些 webui 都是当前目录下配置环境，何来污染一说😧

43

wxd21020

OP

2024-02-19 08:35:52 +08:00

@winson030 列入方案计划
@Ayahuasec 能跑就行了，速度忍一忍

44

blackmirror

2024-02-19 10:09:55 +08:00

2000 的机器能跑模型吗

45

findex

2024-02-19 12:40:39 +08:00 via iPhone

建议放弃。我有个 n100 配上 32G ddr5 内存，无独显无法跑大模型或者小一点的模型。建议换高功率 cpu 加独显。主要看现存和流处理器。

46

dayeye2006199

2024-02-19 14:53:08 +08:00

感觉还不如 colab 。
一个月 10 块美元

47

shm7

2024-02-19 15:54:42 +08:00

wo tmd laugh de desk dou yao xuan diao le

48

lchynn

2024-02-19 18:35:44 +08:00

@laminux29 自己部署，多数都是找基线大模型微调或者做 RAG 场景的。并不太依赖模型本身逻辑推理能力，所以一般 30B 的模型微调后能做一个凑合用的企业知识库就满足很多场景了。

49

obfuscator

2024-02-20 22:13:49 +08:00

你这个预算，显卡那块就压的死死的
只能选择 P106 或者是它的难兄难弟 P104 、P102 那些了
至于 P4 ，想必你预算是不够的

50

mkdirmushroom

2024-02-22 12:28:59 +08:00

@ShadowPower 还好大佬说了 AMD 平台的内存带宽限制，我也准备入手小主机跑大模型，本来想买 8845hs 的，看到内存带宽限制劝退了。

51

mkdirmushroom

2024-02-22 12:42:50 +08:00

@ShadowPower 大佬还是有点疑问，我看了下 AMD 新的移动端处理器 8845hs 的介绍，双通道 DDR5 5600 理论上是有大约 90GB/s 的带宽的，是芯片内部做了限制吗？

52

ShadowPower

2024-02-22 13:13:17 +08:00

@mkdirmushroom AMD 的 IF 总线带宽有限……
台式机处理器还好，限制没有那么大，基本上什么内存都可以正常发挥。

移动端就不一样了。我刚刚测出来的数据：

这是 6400MHz 的内存，可以看到核显的读写带宽基本上都砍了对半，但是同时读+写（ Copy ）接近两者的总和。
而 CPU 的读取带宽只有约 50GB/s ，写入则可以达到 86GB/s ，但是同时读写倒不是两者的总和。

对于跑 LLM 推理的场景，对内存读取带宽要求挺高，瓶颈几乎都在这里，而写比读少很多。

虽然内存带宽真的有将近 90GB/s ，但跑 LLM 时，实际上可以视为只有 50GB/s……
GPU 会更慢，也是因为读取带宽更低。

53

mkdirmushroom

2024-02-22 16:32:10 +08:00

@ShadowPower 感谢大佬的解惑，感觉 8845hs 这个马甲 U 应该也差不多。那如果是小主机的话大佬推荐哪个 U 呢，目前在观望的小主机的 U 有 i9 13900h 、i9 12900h 、i5 12450h 还有 AMD 家的 8845hs ，价格应该是依次递减的，不过巨硬家的内存频率最多到 5200 。

54

mkdirmushroom

2024-02-22 17:09:26 +08:00

@ShadowPower 还有 Intel Core Ultra 5 125H ，它的定位和 8845hs 差不多，但是稍微贵一点。
刚刚看了些评测，在双通道 DDR5 5600 32GB ，PCIE4.0 SSD 2TB 环境下:
Ultra5 的内存带宽的 CPU 读写及延迟分别是 71058 MB/s 、70765 MB/s 、150.4ns
8845hs 则为 61887 MB/S 、86688 MB/s 、90.5 ns
AMD 的写入和延迟好一点，Intel 的读取高了大概 10GB/s

55

ShadowPower

2024-02-22 17:21:39 +08:00

@mkdirmushroom 如果内存频率一样的话，它们应该没什么明显的差别。内存延迟的影响不大，GPU 和显存之间的延迟要更高。

56

renyi1986

2024-02-22 18:07:44 +08:00

现在 8700 不就可以跑大模型，对应的小主机也有了

57

wxd21020

OP

2024-02-23 08:36:07 +08:00

@mkdirmushroom 老哥，你要是配好了，甩配置给我一下，我学习学习；其实里面有些东西我还是盲区，现在还在摸索。

58

mkdirmushroom

2024-02-23 15:25:01 +08:00

@wxd21020 准备等的天钡的 Gem12 了（ 8845hs ），还没出，大概 3 月初上架，准系统价格估计在 2600 左右。

59

lchynn

2024-02-23 21:09:45 +08:00

@mkdirmushroom 8845HS 就是多了 NPU 的 7840 吧，这个多出来的 NPU 对 AI 推理真的有帮助么？它支持 CUDA ？

60

mkdirmushroom

2024-02-26 15:35:08 +08:00

@lchynn 有点用，参考 https://github.com/amd/RyzenAI-SW

61

mkdirmushroom

2024-03-04 14:26:07 +08:00

@wxd21020 买了 gem12 了，8845 主机，准系统 2699 ，两个 m.2 ，一个 oculink ，两个 usb4 ，2 个 2.5G 网口，带副屏幕和指纹。感觉性价比蛮高，就是到手会有点晚，要 4 月初

62

uniqueman

2024-03-24 17:14:47 +08:00

@mkdirmushroom 这个能跑多大规模的模型？

63

mkdirmushroom

2024-03-25 14:49:54 +08:00

@uniqueman 看你内存大小了，内存大一点带宽高一点，理论上 72B 都能跑，不过速度比较慢。

64

lchynn

2024-05-06 22:50:03 +08:00

@mkdirmushroom 买了 GEM12 了么？ OLLAMA 或者 LM-STUDIO 推理 7B 的 gguf 模型咋样？有测试结果么？

65

wxd21020

OP

2024-05-07 09:18:09 +08:00

@lchynn 坐等+1 ，我还在等 618 ，还没下手呢

66

lchynn

2024-05-07 11:24:19 +08:00

@wxd21020 8848HS 的 NPU 好像说 FP16 是 TFLOPS ；估计是瞎吹吧。
3060 12G 的 FP16 (half) 才 12.74 TFLOPS

67

lchynn

2024-05-07 11:24:56 +08:00

8845HS 的 NPU 好像说 FP16 (half) 的算力是 16 TFLOPS ；估计是瞎吹吧。
3060 12G 的 FP16 (half) 才 12.74 TFLOPS

68

mkdirmushroom

2024-05-07 15:12:48 +08:00

@lchynn 买了啊，目前是我的主力家庭服务器，ollama 7b 推理肯定没问题啊，大部分电脑都随便跑的，主要还是看内存带宽的。我还试了 qwen 的 72B 4bit ，大概 2 ，3Token/s 吧。

我目前是 PVE 分了一个 32GB 内存的 ubuntu 跑 ollama ，基本上都用的 14B ，大概能有 10 几 token/s 吧。

69

mkdirmushroom

2024-05-07 15:16:47 +08:00

@mkdirmushroom
@lchynn 8845hs 的 npu 算力不是浮点数，是整数 16TOPS

70

lchynn

2024-05-07 15:42:14 +08:00

@mkdirmushroom 有没有试一下 Code-Qwen 或者 Deepseek Code ？谢谢，如果速度可以，感觉可以代替 Copilot 了

71

tclm

2024-05-11 16:38:21 +08:00

@mkdirmushroom

老哥，配的多少内存，我准备搞一台 8845HS （或 Utral5 125H ）+ 96G （ 48G 5800Hz * 2 ）来跑 70B 的模型，只做本地推理，按你的经验，有搞头吗？

72

tclm

2024-05-11 16:59:11 +08:00

@tclm
@mkdirmushroom

内存是 96G （ 48G 5600Hz * 2 ）

我主要担心的是 8845HS 在内存足够的情况下，处理器性能是否满足 70B 的推理要求。

73

tclm

2024-05-11 17:02:53 +08:00

@tclm
@mkdirmushroom

主要是推理效率，也不能太慢对吧，如果 CPU 跑不了 70B 的话，那内存的预算其实可以削减下来.

74

mkdirmushroom

2024-05-15 15:32:44 +08:00

@tclm 有点慢的，我试过，大概就 2.3token/s 吧

75

tclm

2024-05-15 17:39:33 +08:00

@mkdirmushroom

嗯，感谢，那纯 CPU + 内存进行 70B 模型推理还是很勉强的事情.

76

AndyWang666

2024-05-17 10:04:41 +08:00

@mkdirmushroom GEM12 散热怎么样，我最近也在看。另外 oculink 能直接外接显卡跑模型吧？就是不知道 pve 里能不能直通 oculink

77

mkdirmushroom

2024-05-21 10:32:23 +08:00

@AndyWang666 散热非常好，但是我的机器低负载有电流或者电报的声音，换了一台还是更严重了，只好忍了。pve 直通 oculink 没试过，手里没有显卡坞。

78

AndyWang666

2024-05-22 08:57:30 +08:00

@mkdirmushroom 你是带副屏指纹的？听说带这玩意的有这毛病，这两天准备也入了，618 便宜了 100

79

wxd21020

OP

2024-05-22 09:16:34 +08:00

@AndyWang666 我想入个极摩客 M6 ，GEM12 有点略贵，预算跟不上了

80

hootigger

2024-05-24 21:55:22 +08:00 via iPhone

@mkdirmushroom gem12 也有电流声吗？滋滋的，我买的火影 a8 8845hs 也是，然后今天刚换货。不会也换个更严重的吧。。

81

AndyWang666

2024-05-26 22:22:21 +08:00 via Android

@wxd21020 我已经入了 gem12 了，ssd 只能上单面颗粒，买的 850x 4t 都退了，上了 96g 内存，今天刚装完系统。win server 2025 打驱动太麻烦了，被我直接换 win11 了

82

mkdirmushroom

2024-05-27 16:55:10 +08:00

@hootigger 应该是电感啸叫声，我刚开始有点介意，现在无所谓了，反正正常也听不到。

83

hootigger

2024-05-30 01:17:13 +08:00 via iPhone

@mkdirmushroom 经历差不多，我换货后。这个刚开始我听着声音很小。今天发现又出来了，我也只能接受了。就是低负载有。也就晚上能听到点。凑上去，也还好。玩游戏起来就没有了。整体还行主要火影价格还是香