领导要求将大模型部署到无 GPU 的机房服务器,模型规模为个位数 B (如 7B ),后续会处理输出过来的信息。 领导明确不要 Ollama ,用啥部署呢?求推荐
![]() |
1
NoahBishop 5 天前 via Android
你要不看看 llama.cpp ,自己写个兼容的吧。
|
![]() |
2
coefuqin 2 天前
鸟领导很难伺候啊,就这硬件成本还挑三拣四,能搞出来就不错了。
|
![]() |
3
coefuqin 2 天前
老弟你运气不错,刚才我搜了下方案,还真被我找到了。
https://github.com/intel/ipex-llm/blob/main/docs/mddocs/DockerGuides/vllm_cpu_docker_quickstart.md |
4
Daybyedream OP @coefuqin 专业!我前两天沟通过了最后搭了 ollama+dify
|