国产模型性价比高但不好用？我做了一瓶模型聪明水

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

爱意满满的作品展示区。

比起 Claude Sonnet 、Gemini 、GPT ，现在国产大模型 API ，其实才是一般用的起。但当你真用它们接入工具做 Agent 干活时，往往会发现一个痛点：它们极容易陷入死循环疯狂查资料，或者闭着眼狂改代码从不 run 测试。一顿操作猛如虎，一看 Token 刷了两亿五。

它们其实不缺逻辑智商，只是缺个协调底层动作的“小脑”。

很多人都想干预思维链，但加一个顶级大模型做监督员，只会让成本越来越贵。

我造了个轮子（权当是一副“聪明水”）：一套叫 Governor 的底层行为干预系统。我把 AI 繁杂的动作降维解码成了 X （探索）、E （执行）、P （规划）、V （验证）四个“基因碱基”。

这个中间件会像守护进程一样 O(1) 实时盯盘：一旦发现模型开始“发疯”（比如连续 12 次无效搜索，或光写不测），瞬间注入极轻量的 hook 提示词，像膝跳反应一样强行打断施法。

跑了真实的生产环境数据：喝了这口“聪明水”，Agent 任务成功率提升了 6.2%，更爽的是，无意义的 Token 消耗硬生生砍掉了 44%。用国产模型，也能跑出顶级模型的克制力。

目前这套机制已经开源： https://github.com/FatBy/base-sequence-toolkit ，并集成到我独立开发的 DunCrew (duncrew.com) 中。

目前尚无回复

agent 干预系统