Stable Diffusion 可不可以应用在分布式的集群上？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 736 天前的主题，其中的信息可能已经有所发展或是发生改变。

有没有人做过类似的研究/尝试？对硬件设备有没有什么限制？

diffusion

stable

分布式

可不可以

2 条回复 • 2023-09-13 15:28:36 +08:00

chesha1

2023-09-13 11:05:11 +08:00

1. 当然可以啊，Stable Diffusion 的原公司就是在一个 32 台 8 卡 A100 的集群上进行的训练

2. 不过这个方面的公开资料很少，因为大规模 GPU 集群是很工业界的东西，发论文的人不多，不如算法论文多
我也不是很了解这些，比如 google 的 pathway 就是相关工作，还有 OSDI/SOSP 上也有一些 MLsys 的论文
如果你的意思是怎么使用，而不是怎么研究，我也不清楚，我财力有限，没用过多台机器

3. 硬件限制没太懂，你是指什么样的限制呢？只要是服务器上有 GPU ，服务器之间用以太网/IB 连接，都能做，只是用不同的技术可能效率会差很多

RVRGnXxwawP5kwKW

2023-09-13 15:28:36 +08:00 via iPhone

大型 cnn 的分布式训练和部署已经很成熟了，这方面的论文每年 OSDI 都会有。工业界的方案早的有 mu li 的 parameter server ，近的有 Google 的 pathway 。