本地跑 sd 和 local llm 推理, 什么显卡性价比最高？

推理

性价比

显卡

38 条回复 • 2024-07-01 11:02:47 +08:00

1

justFxxk2060

2024-06-28 11:51:21 +08:00

2080ti 魔改

2

13240284671

2024-06-28 11:52:40 +08:00

3060ti 16g

3

13240284671

2024-06-28 11:53:10 +08:00

说错了，4060 16g

4

hez2010

2024-06-28 12:01:28 +08:00

本地一般是跑量化后的模型，你的显卡起码得支持 INT8 和 INT4 。

5

netizenHan

2024-06-28 12:24:45 +08:00

应该要求不高吧，前两天看公司里有人用 M3 的 macpro 都能部署 LLaMA3-8B ，不过就是比较慢

6

cinlen

OP

2024-06-28 13:49:50 +08:00

@justFxxk2060 有看到 2080ti + 22g 的方案，这个靠谱吗？

7

cinlen

OP

2024-06-28 13:50:59 +08:00

@hez2010 最好是可以 fp16

8

my101du

2024-06-28 13:52:16 +08:00

@13240284671 非 ti 的 4060 ，好像都是 8G 的？ 618 想装机都没找到 16G 的 4060.

9

cinlen

OP

2024-06-28 13:52:40 +08:00

@netizenHan 目前我是 m1 跑小模型没啥问题。但还有 sd webui 和 sd comfyui 的需求，所以应该会攒台新机器。

10

ccloving

2024-06-28 13:56:02 +08:00

如果是 SD 和 ollama ，用 A 卡是不是就可以

11

cinlen

OP

2024-06-28 13:58:42 +08:00

@ccloving 好问题. 话说你不提我压根没想过 A 卡

12

ccloving

2024-06-28 14:04:37 +08:00

@cinlen B 站上有人搞 A 卡，你搜搜，又不炼丹，按说没问题，大显存的显卡都不贵呀。

13

gam2046

2024-06-28 14:05:40 +08:00

@netizenHan #5 8B 效果很一般，基本处于完全胡诌的状态，我用 3090 跑过，响应速度快，但是胡说八道。而 70B ，我的 3090 就跑不起来了。

14

SamLacey

2024-06-28 14:10:07 +08:00

@cinlen 矿卡老祖了，如果售后有保障，或者你动手能力强可以冲，40 系老黄刀法太好了，60superti 与 70 价格差一倍，性能也刚好差一倍，显存不爆的情况下，只有时间差别

15

SamLacey

2024-06-28 14:11:41 +08:00

反正挺推荐 4070ts 的

16

luchenwei9266

2024-06-28 14:22:03 +08:00

看预算，3000 以下无脑选 2080ti 22G

17

goxxoo

2024-06-28 14:22:09 +08:00

我算过了, 和一台 MBP 价格差不多...2w 以内

18

zysuper

2024-06-28 14:27:50 +08:00

没钱选 NVIDIA GeForce RTX 4060 Ti ，

19

billgreen1

2024-06-28 14:29:26 +08:00

M2 ULTRA 192GB,

20

cinlen

OP

2024-06-28 14:38:21 +08:00

@luchenwei9266 可以考虑看看 , 魔改的 22g 踩雷概率高吗？

21

FlintyLemming

2024-06-28 15:01:57 +08:00

@cinlen ollama 默认下的都是 int8 int4 的量化模型，根本就不会给你下 fp16 的，你显存小也没有必要跑没量化的模型

22

afeiche

2024-06-28 15:08:24 +08:00

个人感觉显存大的，新一点的，毕竟现在有些大模型必须用 cuda12 以上了，我印象中 2 系列的，不支持 12

23

cinlen

OP

2024-06-28 15:35:08 +08:00

@FlintyLemming 请教一下，如果我想要学习量化这个过程(我可以找一个 fp16 但是参数量小一点的模型例如 phi-2), 大致需要的显存应该如何计算？和推理一样用参数量乘以数据类型占用 bit 数吗？

24

keakon

2024-06-28 16:08:15 +08:00

@cinlen https://huggingface.co/spaces/hf-accelerate/model-memory-usage

25

FlintyLemming

2024-06-28 16:30:43 +08:00

@cinlen 量化跟推理不一样，显存没上限的，越多越快。建议你选一种量化方式比如 GGUF 然后看他的文档，然后根据设置的参数计算。

26

Greendays

2024-06-28 17:01:33 +08:00

不能接受改装的话，应该就是 4060ti 16G 了吧，或者 3060 12G

27

Champa9ne

2024-06-28 22:43:11 +08:00

居然没人推 P40 ？最廉价的 24G 显存，现在 LLM 能上大参数效果才可堪一用啊。自己一个人用，推理一次多等两分钟无所谓了吧？

28

woorz

2024-06-28 23:29:39 +08:00

轻度最好用这个
[爽过甲骨文 9 条街] 免费用 A100 、V100 ！搭建 AI 工作站的终极攻略 https://www.bilibili.com/video/BV1nS421d72h/?share_source=copy_web&vd_source=b7bbd24169acd7296a98465ee4ab67ea

29

slowgen

2024-06-29 07:29:22 +08:00

@Champa9ne P40 太老了，带宽小，算力差，朋友拿 10 张去跑 Command R Plus 104B 8bit 推理，速度不到 2 token/s ，拿 M2 Ultra 192GB 跑起码还有 5.x token/s ，各种意义上的电子垃圾。

30

slowgen

2024-06-29 07:43:46 +08:00

@cinlen 2080ti 22g 我手头有 2 张，分别 24 小时开机 1 年和 1 年半，没啥问题。不建议买水冷版，单张的话建议买 2~3 风扇的。
涡轮卡适合挤多张但是噪音大，把功耗限制在 70%左右，风扇拉一下可以得到很好的噪音/性能表现，跑 AI 性能下降在 10%左右。买了一张就会买第二张，迟早走上 4 卡/8 卡的道路。

31

yianing

2024-06-29 12:02:21 +08:00 via Android

4090, you buy more, you save more

32

flymeto

2024-06-29 12:15:57 +08:00

2080ti 魔改，自己用一年了，没啥问题

33

cowcomic

2024-06-29 13:24:00 +08:00

建议上安培架构的显卡，也就是 30 系和 40 系
印象一些推理加速技术还有一些量化的技术对显卡架构有要求需要安培架构以上的显卡

34

crackidz

2024-06-29 14:26:41 +08:00

@ccloving @cinlen 千万别用 A 卡，一堆坑，最好的还是换 N 卡，别问我怎么知道的

35

crackidz

2024-06-29 14:28:31 +08:00

跑 SD 最好还是显存足够大，跑 LLM 的话量化 int4 损失也不大，但 SD 是不一样的，基本上都需要 fp16 ，这样子的话 24G 显存是最好的选择，比如 3090 。当然你要是知道魔改卡的话那就...

36

luchenwei9266

2024-06-29 18:10:45 +08:00

@cinlen #20 没什么雷，用了一年多了。建议上三风扇版本。

37

ccloving

2024-07-01 10:56:10 +08:00

@crackidz 只是 ollama 推理和 SD 作图也不行吗？

38

crackidz

2024-07-01 11:02:47 +08:00

@ccloving 主要是 SD 啊，ollama 是没什么问题的