V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
ljx626
V2EX  ›  程序员

求教: 如何基于 LLM 构建一个代码协助助手?

  •  
  •   ljx626 · 2023-12-19 20:26:49 +08:00 · 1304 次点击
    这是一个创建于 365 天前的主题,其中的信息可能已经有所发展或是发生改变。

    如题,需要一个训练好的大模型,比如 Code Llama ,然后把我的代码项目导进去,比如一个 c++工程 2w 行代码, 然后我就能通过一定的方式问他了:比如这个类是干啥的, 如何初始化一个 xxxAgent(代码里的) 这样类似的问题。 构建这样的工具可行的方式是什么?

    4 条回复    2023-12-19 21:34:02 +08:00
    imes
        1
    imes  
       2023-12-19 20:41:28 +08:00
    导入整个项目进行提问(单个文件有现成的 copilot chat 和 codium chat ),需要使用基座模型进行训练和精调。无论是全量预训练或者使用 LoRA ,对于个人而言,都是不现实的:
    1. 没有那么多的数据;
    2. 硬件要求很高。
    比如,llama2-13b 只训练 LoRA 参数,单卡显存要求大于 20G ;全量预训练没有四张 V100 以上的卡基本没法高效开展。实在想尝试,可以看看 Chinese-LLaMA-Alpaca-2 我记得有现成的脚本可以上手微调,光加个中文就用了 50K 词表和 100G 纯文本。
    ljx626
        2
    ljx626  
    OP
       2023-12-19 20:50:24 +08:00
    @imes 感谢大佬~ 使用基座模型的基础上,用自己的代码项目做一下增训,会有效果不
    imes
        3
    imes  
       2023-12-19 21:21:30 +08:00
    @ljx626 2#
    肯定是有效果的,但是最终质量极其依赖训练的数据量。粗略估计,即使精馏,也得有个 20G 数据才行得通。
    GeekGao
        4
    GeekGao  
       2023-12-19 21:34:02 +08:00
    fine tune 么。看你微调样本数量。使用云服务预算要拉到 300 美金以上。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1020 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 20:52 · PVG 04:52 · LAX 12:52 · JFK 15:52
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.