各位 V 友,小弟不才。公司最近想搞一堆显卡,想问一下有没有 V 友知道业界怎么做本地 GPU 虚拟化的,了解到阿里有 cGPU 技术。另外了解到之江实验室也有很多的本地卡,如果不是对外出售云服务,只是对内各部门使用,需要做 GPU 的虚拟化吗? https://www.nvidia.cn/data-center/graphics-cards-for-virtualization/ https://blog.csdn.net/HaoZiHuang/article/details/126972625
1
leixx 2023-08-01 16:14:43 +08:00
mark ,最近公司也在开展 GPU 的项目,学习一下
|
2
zyqv2 2023-08-01 16:17:02 +08:00 via iPhone
NVIDIA 的 grid 驱动,vgpu license 收费;或者 kvm 的 virgl ,有性能损耗
|
3
ysc3839 2023-08-01 16:18:36 +08:00 via Android
内部使用的话 Docker 就行了吧,虚拟机的 GPU 虚拟化好像都要收费的
|
4
leixx 2023-08-01 16:23:32 +08:00
我们是有两个大佬,一个大佬搞内核,一个大佬搞 k8s GPU 调度,我猜想虚拟化也是底层有一套接口?然后通过 hook 的方式,接过来,走自己的逻辑? 不过虚拟化收益高吗?一般直接跑满了。
|
5
defunct9 2023-08-01 16:26:36 +08:00
kvm
|
6
zzz22333 2023-08-01 16:45:42 +08:00
virtio-gpu 是一种方案,公司同事最近也在搞
|
7
Yiukam 2023-08-01 16:46:23 +08:00 1
需求不大,K8S/Docker 就好了,某地方能源集團和下屬的證券企業就是這麼玩的。玩 LLM 的話,推理無所謂,訓練就是單實例多卡或者裸機就好了。效率相差不大。
我們自己內部也是裸機+Docker 的組合。 |
8
kobe718 2023-08-01 16:52:55 +08:00
gpu 虚拟化需要 gpu 硬件支持 sriov
以前 nvidia 有专门用于虚拟化的显卡叫 grid 系列,可以根据不同的 profile 来把一块高端卡分成好几块低端卡来 但是普通的民用卡、计算卡都没有开放 sr-iov 接口 amd 的好像有见说开放 但没具体研究过 |
9
cczh678 2023-08-01 16:59:01 +08:00
大哥应该是为公司的实际立项的项目来做方案的选型吧?有一家做虚拟化 GPU 的公司,趋动科技,可以了解下他们的产品,我们双方是合作关系。
|
10
4179e1 2023-08-01 17:02:33 +08:00
A100 或者 H100 的话有 MIG https://www.nvidia.com/en-us/technologies/multi-instance-gpu/
|
12
495414572 OP 谢谢巨佬们指路,虽然我感觉这个 GPU 虚拟化的需求不一定大,小弟先去研究一下
|
13
kennylam777 2023-08-01 18:56:18 +08:00 via Android
對內不劃分權限的話,用 k8s 分配 gpu 資源已經足夠,不必像 cloud 弄成 multi tenants 的,RTX 一類家用產品也有虛擬化的限制
https://github.com/NVIDIA/k8s-device-plugin |
14
rationa1cuzz 2023-08-01 19:41:25 +08:00
|
15
stoneabc 2023-08-01 19:54:12 +08:00 4
有几种:
1. NVIDIA 官方:VGPU ,这个最趋向于用户理想的虚拟化,一个 GPU 虚拟出多个 vgpu ,通给不同的虚拟机,呈现的和真实 GPU 没啥差异,图形渲染+通用计算都支持。缺点是 license 要钱。 2. 还是 NVIDIA 官方:MIG ,现在应该只有 A100/H100/A30 支持,物理上的切分,缺点是能切分的规格很有限,只支持通用计算。 3. 各类第三方厂商的 hook 类型“虚拟化”:阿里 cGPU ,腾讯 qGPU ,驱动等等,都是 hook GPU 驱动,再基于容器做切分,只支持通用计算,原理有点类似 vGPU ,好处是不用钱,切分非常灵活。 不想搞云上的,那就用 NVIDIA 官方方案,或者像趋动这种三方厂商,不建议自己折腾。 |
16
FelixChenddd 2023-08-03 15:46:27 +08:00
什么卡,图形卡还是计算卡
|