V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
495414572
V2EX  ›  程序员

本地 GPU 虚拟化怎么做?

  •  
  •   495414572 · 270 天前 · 1992 次点击
    这是一个创建于 270 天前的主题,其中的信息可能已经有所发展或是发生改变。

    各位 V 友,小弟不才。公司最近想搞一堆显卡,想问一下有没有 V 友知道业界怎么做本地 GPU 虚拟化的,了解到阿里有 cGPU 技术。另外了解到之江实验室也有很多的本地卡,如果不是对外出售云服务,只是对内各部门使用,需要做 GPU 的虚拟化吗? https://www.nvidia.cn/data-center/graphics-cards-for-virtualization/ https://blog.csdn.net/HaoZiHuang/article/details/126972625

    16 条回复    2023-08-03 15:46:27 +08:00
    leixx
        1
    leixx  
       270 天前
    mark ,最近公司也在开展 GPU 的项目,学习一下
    zyqv2
        2
    zyqv2  
       270 天前 via iPhone
    NVIDIA 的 grid 驱动,vgpu license 收费;或者 kvm 的 virgl ,有性能损耗
    ysc3839
        3
    ysc3839  
       270 天前 via Android
    内部使用的话 Docker 就行了吧,虚拟机的 GPU 虚拟化好像都要收费的
    leixx
        4
    leixx  
       270 天前
    我们是有两个大佬,一个大佬搞内核,一个大佬搞 k8s GPU 调度,我猜想虚拟化也是底层有一套接口?然后通过 hook 的方式,接过来,走自己的逻辑? 不过虚拟化收益高吗?一般直接跑满了。
    defunct9
        5
    defunct9  
       270 天前
    kvm
    zzz22333
        6
    zzz22333  
       270 天前
    virtio-gpu 是一种方案,公司同事最近也在搞
    Yiukam
        7
    Yiukam  
       270 天前   ❤️ 1
    需求不大,K8S/Docker 就好了,某地方能源集團和下屬的證券企業就是這麼玩的。玩 LLM 的話,推理無所謂,訓練就是單實例多卡或者裸機就好了。效率相差不大。

    我們自己內部也是裸機+Docker 的組合。
    kobe718
        8
    kobe718  
       270 天前
    gpu 虚拟化需要 gpu 硬件支持 sriov
    以前 nvidia 有专门用于虚拟化的显卡叫 grid 系列,可以根据不同的 profile 来把一块高端卡分成好几块低端卡来
    但是普通的民用卡、计算卡都没有开放 sr-iov 接口
    amd 的好像有见说开放
    但没具体研究过
    cczh678
        9
    cczh678  
       270 天前
    大哥应该是为公司的实际立项的项目来做方案的选型吧?有一家做虚拟化 GPU 的公司,趋动科技,可以了解下他们的产品,我们双方是合作关系。
    4179e1
        10
    4179e1  
       270 天前
    MrGba2z
        11
    MrGba2z  
       270 天前
    @defunct9

    我以为你要说 “开 ssh ,让我上去看看”
    495414572
        12
    495414572  
    OP
       270 天前
    谢谢巨佬们指路,虽然我感觉这个 GPU 虚拟化的需求不一定大,小弟先去研究一下
    kennylam777
        13
    kennylam777  
       270 天前 via Android
    對內不劃分權限的話,用 k8s 分配 gpu 資源已經足夠,不必像 cloud 弄成 multi tenants 的,RTX 一類家用產品也有虛擬化的限制
    https://github.com/NVIDIA/k8s-device-plugin
    stoneabc
        15
    stoneabc  
       270 天前   ❤️ 4
    有几种:
    1. NVIDIA 官方:VGPU ,这个最趋向于用户理想的虚拟化,一个 GPU 虚拟出多个 vgpu ,通给不同的虚拟机,呈现的和真实 GPU 没啥差异,图形渲染+通用计算都支持。缺点是 license 要钱。
    2. 还是 NVIDIA 官方:MIG ,现在应该只有 A100/H100/A30 支持,物理上的切分,缺点是能切分的规格很有限,只支持通用计算。
    3. 各类第三方厂商的 hook 类型“虚拟化”:阿里 cGPU ,腾讯 qGPU ,驱动等等,都是 hook GPU 驱动,再基于容器做切分,只支持通用计算,原理有点类似 vGPU ,好处是不用钱,切分非常灵活。

    不想搞云上的,那就用 NVIDIA 官方方案,或者像趋动这种三方厂商,不建议自己折腾。
    FelixChenddd
        16
    FelixChenddd  
       268 天前
    什么卡,图形卡还是计算卡
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1059 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 18:28 · PVG 02:28 · LAX 11:28 · JFK 14:28
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.