V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  kennylam777  ›  全部回复第 1 页 / 共 46 页
回复总数  915
1  2  3  4  5  6  7  8  9  10 ... 46  
@yanyuechuixue 不同量化方案各有千秋, 主要分別是硬件支援, 表現也各有不同。

例如 exl2 是我用過最快的方案, 而且量化選擇比較多. 4bit 以外還有 5/5.5/6bit 等等, 對我來說比較容易選一個剛好塞進 4090 的配搭。問題是, 快是很快, 但只限 CUDA only 及 RTX30x0 以上的 GPU, 而且支援軟件不足, 也不能配 PEFT, 所以只能用來跑推理。

GPTQ 是只有 4bit 和 8bit 兩個選擇, VRAM 利用率不及 exl2, 速度也慢, 但 GPTQ 的好處是支援軟件比較多, 而且能直接用 PEFT 做 LoRA 微調。

GGUF 沒用過, 但我知道 Apple Silicon 的用家都是靠它的量化。

其實還有 bitsandbytes 的量化, 直接載入原 model 時的 4bit/8bit 量化, 推理效果不及 exl2/GPTQ/GGUF 好, 但要跑 qLoRA 微調的話, bitsandbytes 還是最通用的方案。
@yanyuechuixue 你是問 exl2 的量化吧? 我用這個, bartowski 家的 exl2 量化很多。
https://huggingface.co/bartowski/Qwen2.5-Coder-32B-Instruct-exl2

這種 model 應該大家都用的 Instruct 版, Base model 沒 SFT 過應該不好用。

@glcolof 我在 Windows 跑 4.25b 量化, 20K 是沒問題的, 節省其他開銷的話可能 30K 也行, 但我也沒調過 YARN 就是了。
@sampeng 有道理, 即使工作上要 deploy LLM 也應該優先選擇 ChatGPT/Claude API 按量付費。

但對於本來就有 4090 和 3090 用來玩遊戲的我, Local AI 就是用來榨出現有硬件價值的玩法。

我相信 Apple Silicon 的玩法也是一樣的, 本來就會買一台機來用, 看到免費的 LLM 拿來用起碼不必多訂閱一個服務。
@SoulSleep 你這種 use case 是 Ops 選錯方案啦, 租用雲 GPU 不是都為了 fine-tuning 嗎? 用完趕快關掉的那種, 6K 月費夠你買私有硬件了吧。當初沒調研過用量嗎?
@m1nm13 nat1 這種沒標準化過的 jargon 也太欺負 LLM 了吧? Local AI 應該用在 code review 一類 RAG 的用途會比較好。
@spike0100 Apple Silicon + 24GB 應該能跑 GGUF q3 吧, q4 可能也可以但有點勉強
剛測了一下, 4090 跑 Qwen2.5 32B coder exl2 4.25b 量化, 速度約 32tokens/s, 配 VSCode Continue 能做不錯的"explain this code to me", Custom OpenAI API

之後用真實的任務試試看, 至少現在知道 4bit 配 Continue 直接能用, 希望有時間能比較一下 8bit 量化的分別
@yanyuechuixue Windows 的 shared VRAM 是能跑 LLM, 但超過了 dedicated VRAM 後性能會大幅下降, 得不償失
@spkingr 淘寶上的 P40 很便宜, 組兩張應該能跑 32B 8bit 量化, 舊 N 卡的量化選擇應該比 Apple Silicon 多, 也可以跑 fine-tuning 雖然比 3090 慢就是了
@ShadowPower 哈哈剛發帖就看到配置了, 雙 3090 跑 8bit 量化感覺 VRAM 很充裕, 多出的 VRAM 就用來撐起 context length,

我記得之前用 Qwen 2.5 32B 8bit 量化, 在雙 3090 設成 20K 也沒問題, 如今 Coder 版應該能盡用更大的 context window
樓主在本地用量化跑吧? 有試過用 Continue 一類 VSCode 插件來用嗎?
PVE 自帶 ACME 本來就十分簡單, 自動維護的, 我實在看不到不設定的理由, 而且好處多多, VNC 連線也比較順利。

況且局域網不是用 DHCPC 分發 DNS 的嗎?都這種規模難道沒有本地 DNS? 為甚麼要手動設定 Host?

而且 PVE 主機的 IP 是固定的, 為甚麼會每個局域網也需要設定一次?

不過近期和一些中國開發者合作, 對方連公網都不用 HTTPS, 甚麼 Nacos 等亂七八糟的東西都直接用公網 HTTP 無加密連線, 就只有一個限制 IP 地址的防火牆, 甚麼 MySQL 密碼的都在國際雲上用 HTTP 直接通過 GFW 連回去中國辦公室的固定 IP 就是了, 這個國家的人似乎特別討厭 HTTPS 似的。
我的 PVE 及 Opnsense 都有正式的證書,因為我就有一個域名,用 ACME + DNS-01 也算方便。

本來就有一堆東西需要內網解析,倒也不難。
110 天前
回复了 lingerr 创建的主题 Kubernetes 自行搭建 k8s ,怎么通过域名访问服务
@lingerr HostPort 跟 HostNetwork 是兩碼事

HostNetwork 會影響到 networking namespace, 比如說 HostNetwork 的 container 裡面 listen 0.0.0.0:80, 就是用 Host 的所有 IP listen 80, 因為 container 直接用 Host network(名字就說明了), 在 k8s 不定義甚麼也能曝露出去。

但 HostPort 的話, container 裡面仍然是一個帶 Pod IP 的獨立 network interface, HostPort 只是將指定 Pod 端口在 Host 曝露出去。
113 天前
回复了 jackge0323 创建的主题 Kubernetes metallb 可以绑定多个 ip 吗?求解答
你的需求是 HostPort 不是 LoadBalancer, LoadBalancer 就是獨立一個 IP 的服務。

MetalLB 有 L2 ARP 及 L3 BGP 的 IP 路由方法, 你完全沒提及過, 恐怕根本不知道 MetalLB 在幹啥。

簡單一點, 用 DaemonSet 跑 Traefik + HostPort 吧......
113 天前
回复了 lingerr 创建的主题 Kubernetes 自行搭建 k8s ,怎么通过域名访问服务
@mightybruce 其實在正式的 LoadBalancer 上, 也是用 NodePort 的, 不然雲服務商的 LoadBalancer 如何連接到服務上? LoadBalancer 的實作會幫你把 NodePort 至雲上的對應都處理好, 可以看看 aws-load-balancer-controller 的實作。


只是在生產環境上, Node Group 的端口不能直接全開到公網。

@lingerr 自己玩的就直接用 HostPort 吧, 一般 ingress controller 都支持, 這樣最簡單了。
121 天前
回复了 yatoroame 创建的主题 NAS 如何限制 NAS 的最大传输速率?
就是內網單 IP 的 QoS 而已
Cangjie 對我來說就是輸入法....
我的心得是, 大型 instances 的 overhead 比小型的好, 所以如果出現 6 台以上的 static node pool, 就是利用率比較固定的那種, 倒是可以看看擴大一倍實例把 node 數量維持在 3 左右, 而 autoscale 的小型 instances 就分開一個 node pool, 控制突發用量的成本。

還有跨 AZ 的問題, Pod 之間的通訊, 如非必要就留在同一個 zone 內, 也可以省不少。

我的經驗是, 經過快速擴張後, 坐下來研究一下利用率, 最高能省 80%, 但某程度上是因為之前的 devs 不注重成本效益, 當時公司也不差錢啦。
205 天前
回复了 g0python32 创建的主题 程序员 关于 acme.sh 申请的免费证书, renew 的问题
cert-manager +1

我記得 rancher 現在是 k8s 的吧, 你還要考慮的是 ingress 能不能直接跟據 k8s secret 的 public cert 更新而自動載入, Ingress-NGINX Controller for Kubernetes 是可以的

nginx -s reload 是有缺點的, 畢竟你的證書一直增加上去, 就要經常 reload

在 Ingress-NGINX Controller for Kubernetes 就直接用 Lua 動態載入來解決。

k8s 的問題, 還是用 k8s 的方式解決吧。
1  2  3  4  5  6  7  8  9  10 ... 46  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2807 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 32ms · UTC 09:26 · PVG 17:26 · LAX 01:26 · JFK 04:26
Developed with CodeLauncher
♥ Do have faith in what you're doing.