V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
Vcide
V2EX  ›  问与答

如何理解 HuggingFace 相关模型的加载过程

  •  
  •   Vcide · 237 天前 · 724 次点击
    这是一个创建于 237 天前的主题,其中的信息可能已经有所发展或是发生改变。

    想请教一下各位大牛, 现在楼主开发的项目涉及到使用 HuggingFace 和 Django 来进行多用户推理,但是 Python 代码经常发生内存泄露,同时也很难排查原因.请问各位大牛有没有相关的读物,调试工具来进行问题的溯源?

    同时还想问一下比如说在 GPU 推理的时候,加载模型是不是只用加载一次到 GPU 显存,之后每个用户都可以用了,如果同时进行推理呢?如果使用 CPU 推理的话,又是什么情况呢?有没有专门的文档说对应的过程呢?

    先谢过大家!

    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1040 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 19ms · UTC 19:54 · PVG 03:54 · LAX 11:54 · JFK 14:54
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.