V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
mingtdlb
V2EX  ›  Local LLM

大模型私有化是怎么集群部署的?

  •  
  •   mingtdlb · 19 天前 · 617 次点击

    基于大模型要比较多的显卡资源,但一台服务器 pcie 插槽有限。

    那大模型是怎么集群化的,比如部署 deepseek R1 671B,应该需要很多资源吧。我不知道多少,假设 10 台服务器,每台 3 块 RTX 4090 。

    那它是怎么组成集群呢

    6 条回复    2025-03-04 15:32:58 +08:00
    Tinet
        1
    Tinet  
       19 天前
    tensorflow 这些架构自带的吧
    erquren
        2
    erquren  
       19 天前
    vllm 节点 组网
    marcong95
        3
    marcong95  
       19 天前
    有为这个需求特化的服务器主板不是都有 8 卡以上的 PCIe 插槽么,例如当年的矿机主板还有用 USB 3.0 物理接口走 PCIe x1 的骚操作,理论上你要能插 H100*8+也不是不行。
    mingtdlb
        4
    mingtdlb  
    OP
       19 天前
    @marcong95 举例,,并不是要去部署,只是好奇。像大厂他们部署,用户量那么多,一个集群总不能就整个三五台插满显卡的主机啊
    zhazi
        5
    zhazi  
       19 天前
    NCCL ,英伟达提供了通讯库

    简单理解成 mapreduce
    volvo007
        6
    volvo007  
       18 天前
    @mingtdlb 硬件上要购买专门的连接器,所以 nv 才会按节点来卖,一个节点 8 张卡,节点之间通过光纤连接。基本上也都推测因为这个分布式计算的需求,nv 才收购了专做网络的 mellanox
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   958 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 22:34 · PVG 06:34 · LAX 15:34 · JFK 18:34
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.