本地部署 qwq 32b 回答很笨是什么原因

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 218 天前的主题，其中的信息可能已经有所发展或是发生改变。

昇腾 300i DUO 服务器部署的，显存占用快 160G ，回答问题还挺快的，占用率在 70%+，但是不太会写代码，跟网页版差别巨大。

本地部署

显存占用

回答速度

8 条回复 • 2025-03-21 17:03:16 +08:00

shelken

218 天前 via iPhone

量化的版本了吧

YsHaNg

218 天前

https://docs.unsloth.ai/basics/tutorial-how-to-run-qwq-32b-effectively

AndrewHenry

218 天前

量化版本吗？调调温度什么的

8675bc86

218 天前

@AndrewHenry @shelken @YsHaNg
modelscope download --model Qwen/QwQ-32B
用的是这个，温度和其他设置好像没多大的作用。

又试了一下这个：modelscope download --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

比上面的那个好一点，也是啰里八嗦，很蠢。

YsHaNg

217 天前

@8675bc86 unsloth 的建议是给 ollama 的不知道你的模型加载器是什么

8675bc86

216 天前

@YsHaNg 我用的华为那一套 mindie 。

8675bc86

216 天前

@YsHaNg 前端用的 openwebui ，在界面配置的温度等配置。

YsHaNg

216 天前 via iPhone

@8675bc86 那这建议可能不太适用你得找华为的人