大模型私有化是怎么集群部署的？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 208 天前的主题，其中的信息可能已经有所发展或是发生改变。

基于大模型要比较多的显卡资源，但一台服务器 pcie 插槽有限。

那大模型是怎么集群化的，比如部署 deepseek R1 671B，应该需要很多资源吧。我不知道多少，假设 10 台服务器，每台 3 块 RTX 4090 。

那它是怎么组成集群呢

6 条回复 • 2025-03-04 15:32:58 +08:00

Tinet

208 天前

tensorflow 这些架构自带的吧

erquren

208 天前

vllm 节点组网

marcong95

208 天前

有为这个需求特化的服务器主板不是都有 8 卡以上的 PCIe 插槽么，例如当年的矿机主板还有用 USB 3.0 物理接口走 PCIe x1 的骚操作，理论上你要能插 H100*8+也不是不行。

mingtdlb

208 天前

@marcong95 举例，，并不是要去部署，只是好奇。像大厂他们部署，用户量那么多，一个集群总不能就整个三五台插满显卡的主机啊

zhazi

208 天前

NCCL ，英伟达提供了通讯库

简单理解成 mapreduce

volvo007

207 天前

@mingtdlb 硬件上要购买专门的连接器，所以 nv 才会按节点来卖，一个节点 8 张卡，节点之间通过光纤连接。基本上也都推测因为这个分布式计算的需求，nv 才收购了专做网络的 mellanox