V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ddvswgg
V2EX  ›  程序员

关于在本地部署开源模型的一些问题请教

  •  
  •   ddvswgg · 96 天前 · 1185 次点击
    这是一个创建于 96 天前的主题,其中的信息可能已经有所发展或是发生改变。

    大家好,我之前没有这方面的经验,但现在有个小的 project ,想请教咨询一下大家。大致上来说,我有一个 node ,为 40G A100 + 128GB 内存,需要部署的是通义千问 7B 。

    1. 这个配置跑这样的模型 ok 吗?
    2. 想找部署在远端的 node 上的教程,搜索什么关键词比较好?
    3. 这样的部署,大概需要多长的时间呢?
    4. 假设部署好了,想从外部访问怎么做到呢?
    5. 如果再加上 RAG 的话,难度/时间大概是什么样的?
    6. 有没有其它需要注意的地方?

    目前看的教程感觉有点乱,希望大家指导,谢谢各位🌹

    9 条回复    2024-08-13 17:42:35 +08:00
    ztm0929
        1
    ztm0929  
       96 天前 via iPhone
    仔细翻一下 ollama 的文档,应该能解决你的问题,可以实现 API 访问
    https://github.com/ollama/ollama
    312ybj
        2
    312ybj  
       96 天前
    1. 7B ,7*4 大概要 28G 显存,加上一些推理时的消耗,40G 也够了
    2. 你去魔塔社区或者 hugging face 直接搜索 tongyi 7B, 有直接运行的测试代码,不过没有超参调节,需要你自己后续加
    3. 看你的需求了,因为还有一些上下文配置,超参调节,终止词配置等等,很多细枝末节,你应该先跑起来
    aiqinxuancai
        3
    aiqinxuancai  
       96 天前
    7b 拿用的上 A100 ,72B 吧?
    312ybj
        4
    312ybj  
       96 天前
    4. 外部访问,你再用 fastapi + sse 就能流失返回数据了
    312ybj
        5
    312ybj  
       96 天前
    5. 你先把部署弄好再说,如果你要简单的 RAG ,去看 langchain ,有现成的开源的,看能不能直接用
    clvin
        6
    clvin  
       96 天前
    1. 40G 可以跑 7B 的模型。
    2. ollama 是比较方便的部署方式,如果想并发性能更好一些,可以使用 vllm 来推理。
    3. 熟练的话就很快,不熟的话照着文档来部署。
    4. ollama 和 vllm 都支持兼容 openai API 接口,就是 http 调用。
    5. 上 RAG 可以使用集成好的框架,比如 dify 之类的。
    6. 上 RAG 的话,还需要 EMBEDDING 和 RERANK 的模型,具体可以看 dify 的文档。
    cinlen
        7
    cinlen  
       96 天前
    ollama + dify
    zoharSoul
        8
    zoharSoul  
       95 天前
    我顺便想问下
    这种自己部署出来的 api 并发请求能支持多大的 qps 啊?
    CynicalRose
        9
    CynicalRose  
       95 天前
    ollama 在今年四月之前,还是单服务单线程运行,现在已经支持多线程了,需要在服务启动前加参数。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2651 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 11:10 · PVG 19:10 · LAX 03:10 · JFK 06:10
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.